SlideShare a Scribd company logo
1 of 31
딥러닝 최신 기술 동향 세미나
1편: Self Supervised Learning
20220602 동균(DK)
🤔
목차 구성을 어떻게 할까??
개인적 의견
- 약인공지능은 거의 정복된 것 같다
- 현재 딥러닝으로 풀기 힘든 문제들?
- 데이터가 너무 적은 경우
- 문제 자체가 매우 복잡한 경우 (long term dependency, very multimodal)
- 단순한 scaling/architecture 변환으로 해결 할 수 있을까?
현실적 단기 목표 : 인간 수준의 인공지능
어떻게 할까?
- 아기처럼 세상을 관찰
- 환경과 상호작용하며 계획을
짤 줄 알아야 함
- Gradient based learning과
호환 가능해야함
아기처럼 세상을 관찰
- 아기가 보는 세상은 label이 없다 → self-supervised learning
- 아기는 여러가지 감각을 활용해 세상을 본다 → multimodal deep learning
- 환경과 상호작용하며 계획을 짤 줄 알아야 함 → RL/Decision Transformer
Self Supervised Learning
배경지식
Self supervised learning이란?
- Unsupervised Learning의 한 종류
- Pretext task를 정해, unlabeled 데이터셋을 사용하여 학습
- 데이터 자체의 정보를 적당히 변형/사용하여 supervision으로 쓴다
- Pretext task의 선정이 가장 중요!
NLP에서의 Pretext task
Continuous Bag of Words (Word2Vec)
Skip Gram (Word2Vec)
Next Sentence Prediction (Bert)
Sentence Permutation (Bart)
가장 Dominant한 두가지
Masked Language Modeling
Autoregressive Language Modeling
두 pretext task의 의의
- 좋은 pretext task를 찾았기에, Language Model들은 scaling에만 집중해도 뛰
어난 성과를 거둘 수 있지 않았을까?
Computer Vision에서의 Pretext task
Computer Vision에서의 Pretext task
NLP에서 성공적이었던 두가지 pretext task를 쓰면 안될까?
- 일단 Autoregressive learning의 경우, image의 nature 자체가 time series data
가 아니기에 적용 불가
- Video쪽 foundational model이 나온다면 AR 방식을 쓸지도?
- Masked Autoencoder는 어떨까?
Image에서 mask prediction이 어려운 이유
- Uncertainty의 어려움이 가장 큰 문제
- NLP에서는 mask에 들어갈 수 있는 단어가 discrete하고 한정되어있음
- 그렇기에 classification task로 접근 가능
- CV에서 mask는 high dimensional하고 continuous함 → uncertainty가 너무 심
함
Mask Prediction (Denoising Autoencoder) 뜯어보기
- Mask Prediction은 Energy based model의 일종으로 볼 수 있음
- 부가 설명: http://helper.ipam.ucla.edu/publications/mlpws4/mlpws4_15927.pdf
- Energy Based Model 이라하면, data pair가 있을 때, 둘이 compatible한 쌍인
지 아닌지를 구별할 수 있다는 소리
- 무슨 소린지는 칠판에서…
CV에서도 똑같이, EBM 관점으로 접근해보자
Siamese Network?
Solving Trivial Solution (Collapse)
- Contrastive Learning
- Negative Sample Selection Problem
- Breaking Symmetry
- Momentum Encoder
- SimSiam (Stop gradient)
- Mathematical Tricks
- Barlow Twins
Data2Vec
Data2Vec에서 가장 중요한 2가지
- Byol과 비슷한 momentum encoder로 trivial solution 해결
- Reconstruction이 아닌, latent network representation prediction으로 접근
- CV/Audio에서 겪는 high dimension에서 오는 uncertainty 문제 해결
- 그러면서도 성능도 좋음 (NLP task에서 RoberTa를 이긴건 놀라웠음)
Masked Autoencoders Are
Scalable Vision Learners
그래도 해보자!
- VIT Architecture을 이용해 encoding
- 75%를 random masking
- 16x16 path로 쪼개고 75% random
- masking ratio가 놀랍게도 큰데, 작을 경우
interpolation등으로 추론해 semantic한 정보
학습이 어려움
한계
A school bus is parked on a grey road
A school bus is parked on a [mask] road
위 둘은 완전히 다름 (Semantic segment vs
Pixel)
얘기할거리
- Self Supervised Learning이 미래다
- 특히 Mask prediction/Autoregressive한 학습은 인간과 매우 유사한듯
- NLP와 달리, CV/Audio은 이거다 싶은 pretext task가 아직 없다
- Siamese Network를 쓰는 방식은 뭔가 찝찝하다 → 간단하지 못하달까?
- 한계를 인지하면서도 Masked Autoencoder 논문이 나온 이유가 이것 아닐까?
- Multimodal한 Self Supervised learning이 답일지도?
- 다음 시간에 얘기할 CLIP, COCA
https://arxiv.org/pdf/2205.14204.pdf

More Related Content

What's hot

Stand alone self attention in vision models
Stand alone self attention in vision modelsStand alone self attention in vision models
Stand alone self attention in vision modelsharmonylab
 
Deep Learning Practice and Theory
Deep Learning Practice and TheoryDeep Learning Practice and Theory
Deep Learning Practice and TheoryPreferred Networks
 
【RSJ2021】LiDAR SLAMにおける高信頼なループ閉合の実装について
【RSJ2021】LiDAR SLAMにおける高信頼なループ閉合の実装について【RSJ2021】LiDAR SLAMにおける高信頼なループ閉合の実装について
【RSJ2021】LiDAR SLAMにおける高信頼なループ閉合の実装についてMobileRoboticsResear
 
NLP2023 緊急パネル:ChatGPTで自然言語処理は終わるのか? 説明スライド
NLP2023 緊急パネル:ChatGPTで自然言語処理は終わるのか? 説明スライドNLP2023 緊急パネル:ChatGPTで自然言語処理は終わるのか? 説明スライド
NLP2023 緊急パネル:ChatGPTで自然言語処理は終わるのか? 説明スライドJunSuzuki21
 
Masked Autoencoders Are Scalable Vision Learners
Masked Autoencoders Are Scalable Vision LearnersMasked Autoencoders Are Scalable Vision Learners
Masked Autoencoders Are Scalable Vision LearnersGuoqingLiu9
 
Transformer Introduction (Seminar Material)
Transformer Introduction (Seminar Material)Transformer Introduction (Seminar Material)
Transformer Introduction (Seminar Material)Yuta Niki
 
An introduction to computer vision with Hugging Face
An introduction to computer vision with Hugging FaceAn introduction to computer vision with Hugging Face
An introduction to computer vision with Hugging FaceJulien SIMON
 
RoFormer: Enhanced Transformer with Rotary Position Embedding
RoFormer: Enhanced Transformer with Rotary Position EmbeddingRoFormer: Enhanced Transformer with Rotary Position Embedding
RoFormer: Enhanced Transformer with Rotary Position Embeddingtaeseon ryu
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
Transformers In Vision From Zero to Hero (DLI).pptx
Transformers In Vision From Zero to Hero (DLI).pptxTransformers In Vision From Zero to Hero (DLI).pptx
Transformers In Vision From Zero to Hero (DLI).pptxDeep Learning Italia
 
[DL輪読会]representation learning via invariant causal mechanisms
[DL輪読会]representation learning via invariant causal mechanisms[DL輪読会]representation learning via invariant causal mechanisms
[DL輪読会]representation learning via invariant causal mechanismsDeep Learning JP
 
サイバーエージェントにおけるMLOpsに関する取り組み at PyDataTokyo 23
サイバーエージェントにおけるMLOpsに関する取り組み at PyDataTokyo 23サイバーエージェントにおけるMLOpsに関する取り組み at PyDataTokyo 23
サイバーエージェントにおけるMLOpsに関する取り組み at PyDataTokyo 23Masashi Shibata
 
Introduction to Visual transformers
Introduction to Visual transformers Introduction to Visual transformers
Introduction to Visual transformers leopauly
 
Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするDaiki Shimada
 
[DL輪読会]Energy-based generative adversarial networks
[DL輪読会]Energy-based generative adversarial networks[DL輪読会]Energy-based generative adversarial networks
[DL輪読会]Energy-based generative adversarial networksDeep Learning JP
 

What's hot (20)

Stand alone self attention in vision models
Stand alone self attention in vision modelsStand alone self attention in vision models
Stand alone self attention in vision models
 
Deep Learning Practice and Theory
Deep Learning Practice and TheoryDeep Learning Practice and Theory
Deep Learning Practice and Theory
 
【RSJ2021】LiDAR SLAMにおける高信頼なループ閉合の実装について
【RSJ2021】LiDAR SLAMにおける高信頼なループ閉合の実装について【RSJ2021】LiDAR SLAMにおける高信頼なループ閉合の実装について
【RSJ2021】LiDAR SLAMにおける高信頼なループ閉合の実装について
 
NLP2023 緊急パネル:ChatGPTで自然言語処理は終わるのか? 説明スライド
NLP2023 緊急パネル:ChatGPTで自然言語処理は終わるのか? 説明スライドNLP2023 緊急パネル:ChatGPTで自然言語処理は終わるのか? 説明スライド
NLP2023 緊急パネル:ChatGPTで自然言語処理は終わるのか? 説明スライド
 
Masked Autoencoders Are Scalable Vision Learners
Masked Autoencoders Are Scalable Vision LearnersMasked Autoencoders Are Scalable Vision Learners
Masked Autoencoders Are Scalable Vision Learners
 
Introduction to Transformer Model
Introduction to Transformer ModelIntroduction to Transformer Model
Introduction to Transformer Model
 
PRML 5.5.6-5.6
PRML 5.5.6-5.6PRML 5.5.6-5.6
PRML 5.5.6-5.6
 
一般向けのDeep Learning
一般向けのDeep Learning一般向けのDeep Learning
一般向けのDeep Learning
 
Transformer Introduction (Seminar Material)
Transformer Introduction (Seminar Material)Transformer Introduction (Seminar Material)
Transformer Introduction (Seminar Material)
 
An introduction to computer vision with Hugging Face
An introduction to computer vision with Hugging FaceAn introduction to computer vision with Hugging Face
An introduction to computer vision with Hugging Face
 
RoFormer: Enhanced Transformer with Rotary Position Embedding
RoFormer: Enhanced Transformer with Rotary Position EmbeddingRoFormer: Enhanced Transformer with Rotary Position Embedding
RoFormer: Enhanced Transformer with Rotary Position Embedding
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
Transformers In Vision From Zero to Hero (DLI).pptx
Transformers In Vision From Zero to Hero (DLI).pptxTransformers In Vision From Zero to Hero (DLI).pptx
Transformers In Vision From Zero to Hero (DLI).pptx
 
[DL輪読会]representation learning via invariant causal mechanisms
[DL輪読会]representation learning via invariant causal mechanisms[DL輪読会]representation learning via invariant causal mechanisms
[DL輪読会]representation learning via invariant causal mechanisms
 
サイバーエージェントにおけるMLOpsに関する取り組み at PyDataTokyo 23
サイバーエージェントにおけるMLOpsに関する取り組み at PyDataTokyo 23サイバーエージェントにおけるMLOpsに関する取り組み at PyDataTokyo 23
サイバーエージェントにおけるMLOpsに関する取り組み at PyDataTokyo 23
 
CVPR 2020 報告
CVPR 2020 報告CVPR 2020 報告
CVPR 2020 報告
 
Introduction to Visual transformers
Introduction to Visual transformers Introduction to Visual transformers
Introduction to Visual transformers
 
Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をする
 
GPT-X
GPT-XGPT-X
GPT-X
 
[DL輪読会]Energy-based generative adversarial networks
[DL輪読会]Energy-based generative adversarial networks[DL輪読会]Energy-based generative adversarial networks
[DL輪読会]Energy-based generative adversarial networks
 

Similar to Self Supervised Learning 세미나.pptx

Metric Learning 세미나.pptx
Metric Learning 세미나.pptxMetric Learning 세미나.pptx
Metric Learning 세미나.pptxDongkyunKim17
 
Metric learning 세미나
Metric learning 세미나Metric learning 세미나
Metric learning 세미나ssuser198c901
 
2020 > Self supervised learning
2020 > Self supervised learning2020 > Self supervised learning
2020 > Self supervised learningDong Heon Cho
 
Transfer learning usage
Transfer learning usageTransfer learning usage
Transfer learning usageTae Young Lee
 
Anomaly detection practive_using_deep_learning
Anomaly detection practive_using_deep_learningAnomaly detection practive_using_deep_learning
Anomaly detection practive_using_deep_learning도형 임
 
애자일 도입과 사례 공유
애자일 도입과 사례 공유애자일 도입과 사례 공유
애자일 도입과 사례 공유agilekorea
 
Deep neural networks cnn rnn_ae_some practical techniques
Deep neural networks cnn rnn_ae_some practical techniquesDeep neural networks cnn rnn_ae_some practical techniques
Deep neural networks cnn rnn_ae_some practical techniquesKang Pilsung
 
나는 왜 TDD에 집착하는가?
나는 왜 TDD에 집착하는가?나는 왜 TDD에 집착하는가?
나는 왜 TDD에 집착하는가?Javajigi Jaesung
 
Denoising auto encoders(d a)
Denoising auto encoders(d a)Denoising auto encoders(d a)
Denoising auto encoders(d a)Tae Young Lee
 
Searching for magic formula by deep learning
Searching for magic formula by deep learningSearching for magic formula by deep learning
Searching for magic formula by deep learningJames Ahn
 
개발자, 성장하는 '척' 말고, 진짜 성장하기
개발자, 성장하는 '척' 말고, 진짜 성장하기개발자, 성장하는 '척' 말고, 진짜 성장하기
개발자, 성장하는 '척' 말고, 진짜 성장하기Donghyun Cho
 
스마트폰 위의 딥러닝
스마트폰 위의 딥러닝스마트폰 위의 딥러닝
스마트폰 위의 딥러닝NAVER Engineering
 
Ml for 정형데이터
Ml for 정형데이터Ml for 정형데이터
Ml for 정형데이터JEEHYUN PAIK
 
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Spark
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & SparkDeep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Spark
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Sparkhoondong kim
 
(in Korean) about knowledge distillation
(in Korean) about knowledge distillation(in Korean) about knowledge distillation
(in Korean) about knowledge distillationssuser23ed0c
 
Alpha Go Introduction
Alpha Go IntroductionAlpha Go Introduction
Alpha Go IntroductionIldoo Kim
 
딥러닝 세계에 입문하기 위반 분투
딥러닝 세계에 입문하기 위반 분투딥러닝 세계에 입문하기 위반 분투
딥러닝 세계에 입문하기 위반 분투Ubuntu Korea Community
 
PYCON KR 2017 - 구름이 하늘의 일이라면 (윤상웅)
PYCON KR 2017 - 구름이 하늘의 일이라면 (윤상웅)PYCON KR 2017 - 구름이 하늘의 일이라면 (윤상웅)
PYCON KR 2017 - 구름이 하늘의 일이라면 (윤상웅)Haezoom Inc.
 

Similar to Self Supervised Learning 세미나.pptx (20)

Metric Learning 세미나.pptx
Metric Learning 세미나.pptxMetric Learning 세미나.pptx
Metric Learning 세미나.pptx
 
Metric learning 세미나
Metric learning 세미나Metric learning 세미나
Metric learning 세미나
 
Deep learning overview
Deep learning overviewDeep learning overview
Deep learning overview
 
2020 > Self supervised learning
2020 > Self supervised learning2020 > Self supervised learning
2020 > Self supervised learning
 
PaLM Paper Review
PaLM Paper ReviewPaLM Paper Review
PaLM Paper Review
 
Transfer learning usage
Transfer learning usageTransfer learning usage
Transfer learning usage
 
Anomaly detection practive_using_deep_learning
Anomaly detection practive_using_deep_learningAnomaly detection practive_using_deep_learning
Anomaly detection practive_using_deep_learning
 
애자일 도입과 사례 공유
애자일 도입과 사례 공유애자일 도입과 사례 공유
애자일 도입과 사례 공유
 
Deep neural networks cnn rnn_ae_some practical techniques
Deep neural networks cnn rnn_ae_some practical techniquesDeep neural networks cnn rnn_ae_some practical techniques
Deep neural networks cnn rnn_ae_some practical techniques
 
나는 왜 TDD에 집착하는가?
나는 왜 TDD에 집착하는가?나는 왜 TDD에 집착하는가?
나는 왜 TDD에 집착하는가?
 
Denoising auto encoders(d a)
Denoising auto encoders(d a)Denoising auto encoders(d a)
Denoising auto encoders(d a)
 
Searching for magic formula by deep learning
Searching for magic formula by deep learningSearching for magic formula by deep learning
Searching for magic formula by deep learning
 
개발자, 성장하는 '척' 말고, 진짜 성장하기
개발자, 성장하는 '척' 말고, 진짜 성장하기개발자, 성장하는 '척' 말고, 진짜 성장하기
개발자, 성장하는 '척' 말고, 진짜 성장하기
 
스마트폰 위의 딥러닝
스마트폰 위의 딥러닝스마트폰 위의 딥러닝
스마트폰 위의 딥러닝
 
Ml for 정형데이터
Ml for 정형데이터Ml for 정형데이터
Ml for 정형데이터
 
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Spark
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & SparkDeep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Spark
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Spark
 
(in Korean) about knowledge distillation
(in Korean) about knowledge distillation(in Korean) about knowledge distillation
(in Korean) about knowledge distillation
 
Alpha Go Introduction
Alpha Go IntroductionAlpha Go Introduction
Alpha Go Introduction
 
딥러닝 세계에 입문하기 위반 분투
딥러닝 세계에 입문하기 위반 분투딥러닝 세계에 입문하기 위반 분투
딥러닝 세계에 입문하기 위반 분투
 
PYCON KR 2017 - 구름이 하늘의 일이라면 (윤상웅)
PYCON KR 2017 - 구름이 하늘의 일이라면 (윤상웅)PYCON KR 2017 - 구름이 하늘의 일이라면 (윤상웅)
PYCON KR 2017 - 구름이 하늘의 일이라면 (윤상웅)
 

Self Supervised Learning 세미나.pptx

  • 1. 딥러닝 최신 기술 동향 세미나 1편: Self Supervised Learning 20220602 동균(DK)
  • 3.
  • 4. 개인적 의견 - 약인공지능은 거의 정복된 것 같다 - 현재 딥러닝으로 풀기 힘든 문제들? - 데이터가 너무 적은 경우 - 문제 자체가 매우 복잡한 경우 (long term dependency, very multimodal) - 단순한 scaling/architecture 변환으로 해결 할 수 있을까?
  • 5. 현실적 단기 목표 : 인간 수준의 인공지능
  • 6. 어떻게 할까? - 아기처럼 세상을 관찰 - 환경과 상호작용하며 계획을 짤 줄 알아야 함 - Gradient based learning과 호환 가능해야함
  • 7. 아기처럼 세상을 관찰 - 아기가 보는 세상은 label이 없다 → self-supervised learning - 아기는 여러가지 감각을 활용해 세상을 본다 → multimodal deep learning - 환경과 상호작용하며 계획을 짤 줄 알아야 함 → RL/Decision Transformer
  • 10. Self supervised learning이란? - Unsupervised Learning의 한 종류 - Pretext task를 정해, unlabeled 데이터셋을 사용하여 학습 - 데이터 자체의 정보를 적당히 변형/사용하여 supervision으로 쓴다 - Pretext task의 선정이 가장 중요!
  • 12. Continuous Bag of Words (Word2Vec) Skip Gram (Word2Vec) Next Sentence Prediction (Bert) Sentence Permutation (Bart)
  • 13. 가장 Dominant한 두가지 Masked Language Modeling Autoregressive Language Modeling
  • 14. 두 pretext task의 의의 - 좋은 pretext task를 찾았기에, Language Model들은 scaling에만 집중해도 뛰 어난 성과를 거둘 수 있지 않았을까?
  • 17.
  • 18. NLP에서 성공적이었던 두가지 pretext task를 쓰면 안될까? - 일단 Autoregressive learning의 경우, image의 nature 자체가 time series data 가 아니기에 적용 불가 - Video쪽 foundational model이 나온다면 AR 방식을 쓸지도? - Masked Autoencoder는 어떨까?
  • 19. Image에서 mask prediction이 어려운 이유 - Uncertainty의 어려움이 가장 큰 문제 - NLP에서는 mask에 들어갈 수 있는 단어가 discrete하고 한정되어있음 - 그렇기에 classification task로 접근 가능 - CV에서 mask는 high dimensional하고 continuous함 → uncertainty가 너무 심 함
  • 20. Mask Prediction (Denoising Autoencoder) 뜯어보기 - Mask Prediction은 Energy based model의 일종으로 볼 수 있음 - 부가 설명: http://helper.ipam.ucla.edu/publications/mlpws4/mlpws4_15927.pdf - Energy Based Model 이라하면, data pair가 있을 때, 둘이 compatible한 쌍인 지 아닌지를 구별할 수 있다는 소리 - 무슨 소린지는 칠판에서…
  • 21. CV에서도 똑같이, EBM 관점으로 접근해보자
  • 23. Solving Trivial Solution (Collapse) - Contrastive Learning - Negative Sample Selection Problem - Breaking Symmetry - Momentum Encoder - SimSiam (Stop gradient) - Mathematical Tricks - Barlow Twins
  • 25.
  • 26. Data2Vec에서 가장 중요한 2가지 - Byol과 비슷한 momentum encoder로 trivial solution 해결 - Reconstruction이 아닌, latent network representation prediction으로 접근 - CV/Audio에서 겪는 high dimension에서 오는 uncertainty 문제 해결 - 그러면서도 성능도 좋음 (NLP task에서 RoberTa를 이긴건 놀라웠음)
  • 28. 그래도 해보자! - VIT Architecture을 이용해 encoding - 75%를 random masking - 16x16 path로 쪼개고 75% random - masking ratio가 놀랍게도 큰데, 작을 경우 interpolation등으로 추론해 semantic한 정보 학습이 어려움
  • 29. 한계 A school bus is parked on a grey road A school bus is parked on a [mask] road 위 둘은 완전히 다름 (Semantic segment vs Pixel)
  • 30. 얘기할거리 - Self Supervised Learning이 미래다 - 특히 Mask prediction/Autoregressive한 학습은 인간과 매우 유사한듯 - NLP와 달리, CV/Audio은 이거다 싶은 pretext task가 아직 없다 - Siamese Network를 쓰는 방식은 뭔가 찝찝하다 → 간단하지 못하달까? - 한계를 인지하면서도 Masked Autoencoder 논문이 나온 이유가 이것 아닐까? - Multimodal한 Self Supervised learning이 답일지도? - 다음 시간에 얘기할 CLIP, COCA