SlideShare a Scribd company logo
1 of 28
Segment Anything
1
GBJ
2
Segment Anything?
• 어떤 것이든 분할한다.
3
• 개요 : LLM은 zero-shot을 바탕으로 NLP에 큰 영향을 주는데 아직까지 Computer Vision에서는 그 효과가 밋밋하다.
• Goal : 빠르고 강력하면서 일반화된 image segmentation 작업
• 이 작업을 달성하기 위한 아래 3가지 내용의 해결 필요
1. What task will enable zero-shot generalization?
2. What is the corresponding model architecture?
3. What data can power this task and model?
Abstract
Goal
1. Method
4
Method
Task
5
• Prompt : 마스크를 생성할 대상을 지정
→ 지정하는 방식은 3가지 중 하나(point, box, text)
point box text
fish
Method
Data
6
• data engine의 구성은 총 3단계
1. Assisted-manual stage
2. Semi-automatic stage
3. Fully automatic stage
Method
Data
7
1. Assisted-manual stage
: public segmentation dataset을 이용하여 SAM 학습 및 추론한 결과에서 사람이 픽셀 단위로 수정
수집된 데이터를 바탕으로 주기적으로 6번의 모델 재학습
12만장의 image로 430만개의 mask 수집
public
segmentation
dataset
학습 추론
수정
Method
Data
8
2. Semi-automatic stage
: 이전 단계에서 만든 데이터셋으로 SAM 학습 및 추론한 결과에서 제외된 object만 수정
1단계와 마찬가지로 수집된 데이터를 바탕으로 주기적으로 5번의 재학습
18만장의 image로 590만개의 mask 추가 수집(total mask 1020만개 = 1단계 430만개 + 590만개)
이전 단계에서 만
든 mask 430만개
학습 추론
제외된 object
수정
Method
Data
9
3. Fully automatic stage
: 1,2 단계로 만든 mask 1020만개로 SAM 학습 및 추론한 결과를 사용
이미지 내의 32× 32 grid point를 주어 각 point마다 유효한 object에 해당할 수 있는 mask 예측
SA-1B 데이터셋(1100만개의 이미지로 mask 11억개 생성)
1,2 단계로 만든
mask 1020만개
학습 labeling
SA-1B
Method
Model
10
• SAM은 3가지로 구성되어 있음
• Image encoder
• Prompt encoder
• Mask decoder
MAE 방식으로 학습한 ViT
1024×1024 input size(짧은 부분은 padding)
Method
Model – Image encoder
11
• MAE(masked autoencoders)
: 이미지를 grid로 나누고 patch 중 일부를 가리고 다시 원본을 복원하도록 학습하는 방법
학습이 끝난 후에는 encoder만 embedding 모델로 사용
Method
Model – Prompt encoder
12
• mask : convolution 차원 맞추고, image imbedding에 pixel wise sum(픽셀별 sum)
• point & box : positional encoding으로 표현
• text : CLIP 모델 text encoder를 가져와 embedding
MAE 방식으로 학습한 ViT
Method
Model – Mask decoder
13
attention block
cross attention
Method
Ambiguity
14
• mask 후보군 3개 생성
• mask 3개 중 ground-truth와 가장 유사한 mask의 loss
만 역전파
• 모호성 : prompt의 대상이 사람인지 가방인지 애매함
2. Zero-Shot Transfer Experiments
15
Zero-Shot Transfer Experiments
16
• 5가지 task를 진행
1. Zero-Shot Single Point Valid Mask Evaluation
2. Zero-Shot Edge Detection
3. Zero-Shot Object Proposals
4. Zero-Shot Instance Segmentation
5. Zero-Shot Text-to-Mask
1 2
3 4
5
Zero-Shot Transfer Experiments
Zero-Shot Single Point Valid Mask Evaluation
17
• task : point를 찍을 때 그에 해당하는 mask를 얼마나 잘 생성하는지 판단
Zero-Shot Transfer Experiments
Zero-Shot Single Point Valid Mask Evaluation
18
• 23개의 데이터셋을 가지고 RITM 모델과 비교
• circle point는 추론한 mask 3장 중에 1장이라도 맞았을 때의 경우
Zero-Shot Transfer Experiments
Zero-Shot Edge Detection
19
• edge task에서는 추론 방식 변경
16×16×3
= 768 mask
16×16 point로 prompt
NMS
filtering
Sobel
filter
Zero-Shot Transfer Experiments
Zero-Shot Edge Detection
20
Zero-Shot Transfer Experiments
Zero-Shot Object Proposals
21
• 64×64 grid point, NMS threshold 0.9로 이미지당 평균 900개
가량의 mask 생성
• Mask가 1000개 이상 생성된 경우, confidence & stability score
상위 1000개로 제한함
Zero-Shot Transfer Experiments
Zero-Shot Instance Segmentation
22
Zero-Shot Transfer Experiments
Zero-Shot Text-to-Mask
23
• CLIP 모델
Zero-Shot Transfer Experiments
Zero-Shot Text-to-Mask
24
• CLIP 모델의 encoder만 활용
CLIP image encoder
CLIP text encoder
Zero-Shot Transfer Experiments
Zero-Shot Text-to-Mask
25
3. Conclusion
26
27
• computer vision foundation model 제시
• 대규모 데이터셋 구축(SA-1B) (기존 Open Images 데이터셋보다 11배 이상의 image와 400배 이상의 mask)
• zero-shot(unseen data classification)
• 다양한 task의 문제를 해결
Conclusion
Q & A
28

More Related Content

What's hot

Yolo v1 urop 발표자료
Yolo v1 urop 발표자료Yolo v1 urop 발표자료
Yolo v1 urop 발표자료DaeHeeKim31
 
Convolutional Neural Network - CNN | How CNN Works | Deep Learning Course | S...
Convolutional Neural Network - CNN | How CNN Works | Deep Learning Course | S...Convolutional Neural Network - CNN | How CNN Works | Deep Learning Course | S...
Convolutional Neural Network - CNN | How CNN Works | Deep Learning Course | S...Simplilearn
 
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.Yongho Ha
 
PR-217: EfficientDet: Scalable and Efficient Object Detection
PR-217: EfficientDet: Scalable and Efficient Object DetectionPR-217: EfficientDet: Scalable and Efficient Object Detection
PR-217: EfficientDet: Scalable and Efficient Object DetectionJinwon Lee
 
Introduction to CNN
Introduction to CNNIntroduction to CNN
Introduction to CNNShuai Zhang
 
Deep Feed Forward Neural Networks and Regularization
Deep Feed Forward Neural Networks and RegularizationDeep Feed Forward Neural Networks and Regularization
Deep Feed Forward Neural Networks and RegularizationYan Xu
 
Photo-realistic Single Image Super-resolution using a Generative Adversarial ...
Photo-realistic Single Image Super-resolution using a Generative Adversarial ...Photo-realistic Single Image Super-resolution using a Generative Adversarial ...
Photo-realistic Single Image Super-resolution using a Generative Adversarial ...Hansol Kang
 
Pytorch Implementation : 파일을 어떻게 나눠야할까?
Pytorch Implementation : 파일을 어떻게 나눠야할까?Pytorch Implementation : 파일을 어떻게 나눠야할까?
Pytorch Implementation : 파일을 어떻게 나눠야할까?Subin An
 
노말 맵핑(Normal mapping)
노말 맵핑(Normal mapping)노말 맵핑(Normal mapping)
노말 맵핑(Normal mapping)QooJuice
 
A Deep Journey into Super-resolution
A Deep Journey into Super-resolutionA Deep Journey into Super-resolution
A Deep Journey into Super-resolutionRonak Mehta
 
Single Image Super Resolution Overview
Single Image Super Resolution OverviewSingle Image Super Resolution Overview
Single Image Super Resolution OverviewLEE HOSEONG
 
Activation functions
Activation functionsActivation functions
Activation functionsPRATEEK SAHU
 
Convolutional neural network
Convolutional neural networkConvolutional neural network
Convolutional neural networkMojammilHusain
 
210523 swin transformer v1.5
210523 swin transformer v1.5210523 swin transformer v1.5
210523 swin transformer v1.5taeseon ryu
 
Wasserstein GAN 수학 이해하기 I
Wasserstein GAN 수학 이해하기 IWasserstein GAN 수학 이해하기 I
Wasserstein GAN 수학 이해하기 ISungbin Lim
 
인공지능 방법론 - 딥러닝 이해하기
인공지능 방법론 - 딥러닝 이해하기인공지능 방법론 - 딥러닝 이해하기
인공지능 방법론 - 딥러닝 이해하기Byoung-Hee Kim
 

What's hot (20)

Yolo v1 urop 발표자료
Yolo v1 urop 발표자료Yolo v1 urop 발표자료
Yolo v1 urop 발표자료
 
Convolutional Neural Network - CNN | How CNN Works | Deep Learning Course | S...
Convolutional Neural Network - CNN | How CNN Works | Deep Learning Course | S...Convolutional Neural Network - CNN | How CNN Works | Deep Learning Course | S...
Convolutional Neural Network - CNN | How CNN Works | Deep Learning Course | S...
 
CIFAR-10
CIFAR-10CIFAR-10
CIFAR-10
 
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
 
PR-217: EfficientDet: Scalable and Efficient Object Detection
PR-217: EfficientDet: Scalable and Efficient Object DetectionPR-217: EfficientDet: Scalable and Efficient Object Detection
PR-217: EfficientDet: Scalable and Efficient Object Detection
 
Introduction to OpenCV
Introduction to OpenCVIntroduction to OpenCV
Introduction to OpenCV
 
Introduction to CNN
Introduction to CNNIntroduction to CNN
Introduction to CNN
 
Attention Models (D3L6 2017 UPC Deep Learning for Computer Vision)
Attention Models (D3L6 2017 UPC Deep Learning for Computer Vision)Attention Models (D3L6 2017 UPC Deep Learning for Computer Vision)
Attention Models (D3L6 2017 UPC Deep Learning for Computer Vision)
 
Introduction to OpenCV
Introduction to OpenCVIntroduction to OpenCV
Introduction to OpenCV
 
Deep Feed Forward Neural Networks and Regularization
Deep Feed Forward Neural Networks and RegularizationDeep Feed Forward Neural Networks and Regularization
Deep Feed Forward Neural Networks and Regularization
 
Photo-realistic Single Image Super-resolution using a Generative Adversarial ...
Photo-realistic Single Image Super-resolution using a Generative Adversarial ...Photo-realistic Single Image Super-resolution using a Generative Adversarial ...
Photo-realistic Single Image Super-resolution using a Generative Adversarial ...
 
Pytorch Implementation : 파일을 어떻게 나눠야할까?
Pytorch Implementation : 파일을 어떻게 나눠야할까?Pytorch Implementation : 파일을 어떻게 나눠야할까?
Pytorch Implementation : 파일을 어떻게 나눠야할까?
 
노말 맵핑(Normal mapping)
노말 맵핑(Normal mapping)노말 맵핑(Normal mapping)
노말 맵핑(Normal mapping)
 
A Deep Journey into Super-resolution
A Deep Journey into Super-resolutionA Deep Journey into Super-resolution
A Deep Journey into Super-resolution
 
Single Image Super Resolution Overview
Single Image Super Resolution OverviewSingle Image Super Resolution Overview
Single Image Super Resolution Overview
 
Activation functions
Activation functionsActivation functions
Activation functions
 
Convolutional neural network
Convolutional neural networkConvolutional neural network
Convolutional neural network
 
210523 swin transformer v1.5
210523 swin transformer v1.5210523 swin transformer v1.5
210523 swin transformer v1.5
 
Wasserstein GAN 수학 이해하기 I
Wasserstein GAN 수학 이해하기 IWasserstein GAN 수학 이해하기 I
Wasserstein GAN 수학 이해하기 I
 
인공지능 방법론 - 딥러닝 이해하기
인공지능 방법론 - 딥러닝 이해하기인공지능 방법론 - 딥러닝 이해하기
인공지능 방법론 - 딥러닝 이해하기
 

Similar to Segment Anything

[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...
[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...
[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...Gyubin Son
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현BOAZ Bigdata
 
딥러닝 논문읽기 efficient netv2 논문리뷰
딥러닝 논문읽기 efficient netv2  논문리뷰딥러닝 논문읽기 efficient netv2  논문리뷰
딥러닝 논문읽기 efficient netv2 논문리뷰taeseon ryu
 
Learning Less is More - 6D Camera Localization via 3D Surface Regression
Learning Less is More - 6D Camera Localization via 3D Surface RegressionLearning Less is More - 6D Camera Localization via 3D Surface Regression
Learning Less is More - 6D Camera Localization via 3D Surface RegressionBrian Younggun Cho
 
Nationality recognition
Nationality recognitionNationality recognition
Nationality recognition준영 박
 
Vip detection sensor
Vip detection sensorVip detection sensor
Vip detection sensorchs71
 
2020 > Self supervised learning
2020 > Self supervised learning2020 > Self supervised learning
2020 > Self supervised learningDong Heon Cho
 
"From image level to pixel-level labeling with convolutional networks" Paper ...
"From image level to pixel-level labeling with convolutional networks" Paper ..."From image level to pixel-level labeling with convolutional networks" Paper ...
"From image level to pixel-level labeling with convolutional networks" Paper ...LEE HOSEONG
 
2019 5-5-week-i-learned-generative model
2019 5-5-week-i-learned-generative model2019 5-5-week-i-learned-generative model
2019 5-5-week-i-learned-generative modelstrutive07
 
[A-GIST 발표] Crowdsourced 3D Mapping: A combined Multi-View Geometry and Self-...
[A-GIST 발표] Crowdsourced 3D Mapping: A combined Multi-View Geometry and Self-...[A-GIST 발표] Crowdsourced 3D Mapping: A combined Multi-View Geometry and Self-...
[A-GIST 발표] Crowdsourced 3D Mapping: A combined Multi-View Geometry and Self-...Jehong Lee
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [ztyle] : 손그림 의류 검색 서비스
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [ztyle] : 손그림 의류 검색 서비스제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [ztyle] : 손그림 의류 검색 서비스
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [ztyle] : 손그림 의류 검색 서비스BOAZ Bigdata
 
스마트폰 위의 딥러닝
스마트폰 위의 딥러닝스마트폰 위의 딥러닝
스마트폰 위의 딥러닝NAVER Engineering
 
[Paper Review] Visualizing and understanding convolutional networks
[Paper Review] Visualizing and understanding convolutional networks[Paper Review] Visualizing and understanding convolutional networks
[Paper Review] Visualizing and understanding convolutional networksKorea, Sejong University.
 
FickleNet: Weakly and Semi-supervised Semantic Image Segmentation using Stoch...
FickleNet: Weakly and Semi-supervised Semantic Image Segmentation using Stoch...FickleNet: Weakly and Semi-supervised Semantic Image Segmentation using Stoch...
FickleNet: Weakly and Semi-supervised Semantic Image Segmentation using Stoch...Sungchul Kim
 
"Dataset and metrics for predicting local visible differences" Paper Review
"Dataset and metrics for predicting local visible differences" Paper Review"Dataset and metrics for predicting local visible differences" Paper Review
"Dataset and metrics for predicting local visible differences" Paper ReviewLEE HOSEONG
 
OpenCV's Built-in Trackers
OpenCV's Built-in TrackersOpenCV's Built-in Trackers
OpenCV's Built-in TrackersKwonkyuPark
 
Summary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detectionSummary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detection창기 문
 
Summary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detectionSummary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detection창기 문
 
생체 광학 데이터 분석 AI 경진대회 3위 수상작
생체 광학 데이터 분석 AI 경진대회 3위 수상작생체 광학 데이터 분석 AI 경진대회 3위 수상작
생체 광학 데이터 분석 AI 경진대회 3위 수상작DACON AI 데이콘
 

Similar to Segment Anything (20)

[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...
[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...
[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현
 
딥러닝 논문읽기 efficient netv2 논문리뷰
딥러닝 논문읽기 efficient netv2  논문리뷰딥러닝 논문읽기 efficient netv2  논문리뷰
딥러닝 논문읽기 efficient netv2 논문리뷰
 
Learning Less is More - 6D Camera Localization via 3D Surface Regression
Learning Less is More - 6D Camera Localization via 3D Surface RegressionLearning Less is More - 6D Camera Localization via 3D Surface Regression
Learning Less is More - 6D Camera Localization via 3D Surface Regression
 
Deep learning overview
Deep learning overviewDeep learning overview
Deep learning overview
 
Nationality recognition
Nationality recognitionNationality recognition
Nationality recognition
 
Vip detection sensor
Vip detection sensorVip detection sensor
Vip detection sensor
 
2020 > Self supervised learning
2020 > Self supervised learning2020 > Self supervised learning
2020 > Self supervised learning
 
"From image level to pixel-level labeling with convolutional networks" Paper ...
"From image level to pixel-level labeling with convolutional networks" Paper ..."From image level to pixel-level labeling with convolutional networks" Paper ...
"From image level to pixel-level labeling with convolutional networks" Paper ...
 
2019 5-5-week-i-learned-generative model
2019 5-5-week-i-learned-generative model2019 5-5-week-i-learned-generative model
2019 5-5-week-i-learned-generative model
 
[A-GIST 발표] Crowdsourced 3D Mapping: A combined Multi-View Geometry and Self-...
[A-GIST 발표] Crowdsourced 3D Mapping: A combined Multi-View Geometry and Self-...[A-GIST 발표] Crowdsourced 3D Mapping: A combined Multi-View Geometry and Self-...
[A-GIST 발표] Crowdsourced 3D Mapping: A combined Multi-View Geometry and Self-...
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [ztyle] : 손그림 의류 검색 서비스
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [ztyle] : 손그림 의류 검색 서비스제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [ztyle] : 손그림 의류 검색 서비스
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [ztyle] : 손그림 의류 검색 서비스
 
스마트폰 위의 딥러닝
스마트폰 위의 딥러닝스마트폰 위의 딥러닝
스마트폰 위의 딥러닝
 
[Paper Review] Visualizing and understanding convolutional networks
[Paper Review] Visualizing and understanding convolutional networks[Paper Review] Visualizing and understanding convolutional networks
[Paper Review] Visualizing and understanding convolutional networks
 
FickleNet: Weakly and Semi-supervised Semantic Image Segmentation using Stoch...
FickleNet: Weakly and Semi-supervised Semantic Image Segmentation using Stoch...FickleNet: Weakly and Semi-supervised Semantic Image Segmentation using Stoch...
FickleNet: Weakly and Semi-supervised Semantic Image Segmentation using Stoch...
 
"Dataset and metrics for predicting local visible differences" Paper Review
"Dataset and metrics for predicting local visible differences" Paper Review"Dataset and metrics for predicting local visible differences" Paper Review
"Dataset and metrics for predicting local visible differences" Paper Review
 
OpenCV's Built-in Trackers
OpenCV's Built-in TrackersOpenCV's Built-in Trackers
OpenCV's Built-in Trackers
 
Summary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detectionSummary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detection
 
Summary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detectionSummary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detection
 
생체 광학 데이터 분석 AI 경진대회 3위 수상작
생체 광학 데이터 분석 AI 경진대회 3위 수상작생체 광학 데이터 분석 AI 경진대회 3위 수상작
생체 광학 데이터 분석 AI 경진대회 3위 수상작
 

Segment Anything

  • 2. 2 Segment Anything? • 어떤 것이든 분할한다.
  • 3. 3 • 개요 : LLM은 zero-shot을 바탕으로 NLP에 큰 영향을 주는데 아직까지 Computer Vision에서는 그 효과가 밋밋하다. • Goal : 빠르고 강력하면서 일반화된 image segmentation 작업 • 이 작업을 달성하기 위한 아래 3가지 내용의 해결 필요 1. What task will enable zero-shot generalization? 2. What is the corresponding model architecture? 3. What data can power this task and model? Abstract Goal
  • 5. Method Task 5 • Prompt : 마스크를 생성할 대상을 지정 → 지정하는 방식은 3가지 중 하나(point, box, text) point box text fish
  • 6. Method Data 6 • data engine의 구성은 총 3단계 1. Assisted-manual stage 2. Semi-automatic stage 3. Fully automatic stage
  • 7. Method Data 7 1. Assisted-manual stage : public segmentation dataset을 이용하여 SAM 학습 및 추론한 결과에서 사람이 픽셀 단위로 수정 수집된 데이터를 바탕으로 주기적으로 6번의 모델 재학습 12만장의 image로 430만개의 mask 수집 public segmentation dataset 학습 추론 수정
  • 8. Method Data 8 2. Semi-automatic stage : 이전 단계에서 만든 데이터셋으로 SAM 학습 및 추론한 결과에서 제외된 object만 수정 1단계와 마찬가지로 수집된 데이터를 바탕으로 주기적으로 5번의 재학습 18만장의 image로 590만개의 mask 추가 수집(total mask 1020만개 = 1단계 430만개 + 590만개) 이전 단계에서 만 든 mask 430만개 학습 추론 제외된 object 수정
  • 9. Method Data 9 3. Fully automatic stage : 1,2 단계로 만든 mask 1020만개로 SAM 학습 및 추론한 결과를 사용 이미지 내의 32× 32 grid point를 주어 각 point마다 유효한 object에 해당할 수 있는 mask 예측 SA-1B 데이터셋(1100만개의 이미지로 mask 11억개 생성) 1,2 단계로 만든 mask 1020만개 학습 labeling SA-1B
  • 10. Method Model 10 • SAM은 3가지로 구성되어 있음 • Image encoder • Prompt encoder • Mask decoder MAE 방식으로 학습한 ViT 1024×1024 input size(짧은 부분은 padding)
  • 11. Method Model – Image encoder 11 • MAE(masked autoencoders) : 이미지를 grid로 나누고 patch 중 일부를 가리고 다시 원본을 복원하도록 학습하는 방법 학습이 끝난 후에는 encoder만 embedding 모델로 사용
  • 12. Method Model – Prompt encoder 12 • mask : convolution 차원 맞추고, image imbedding에 pixel wise sum(픽셀별 sum) • point & box : positional encoding으로 표현 • text : CLIP 모델 text encoder를 가져와 embedding MAE 방식으로 학습한 ViT
  • 13. Method Model – Mask decoder 13 attention block cross attention
  • 14. Method Ambiguity 14 • mask 후보군 3개 생성 • mask 3개 중 ground-truth와 가장 유사한 mask의 loss 만 역전파 • 모호성 : prompt의 대상이 사람인지 가방인지 애매함
  • 15. 2. Zero-Shot Transfer Experiments 15
  • 16. Zero-Shot Transfer Experiments 16 • 5가지 task를 진행 1. Zero-Shot Single Point Valid Mask Evaluation 2. Zero-Shot Edge Detection 3. Zero-Shot Object Proposals 4. Zero-Shot Instance Segmentation 5. Zero-Shot Text-to-Mask 1 2 3 4 5
  • 17. Zero-Shot Transfer Experiments Zero-Shot Single Point Valid Mask Evaluation 17 • task : point를 찍을 때 그에 해당하는 mask를 얼마나 잘 생성하는지 판단
  • 18. Zero-Shot Transfer Experiments Zero-Shot Single Point Valid Mask Evaluation 18 • 23개의 데이터셋을 가지고 RITM 모델과 비교 • circle point는 추론한 mask 3장 중에 1장이라도 맞았을 때의 경우
  • 19. Zero-Shot Transfer Experiments Zero-Shot Edge Detection 19 • edge task에서는 추론 방식 변경 16×16×3 = 768 mask 16×16 point로 prompt NMS filtering Sobel filter
  • 21. Zero-Shot Transfer Experiments Zero-Shot Object Proposals 21 • 64×64 grid point, NMS threshold 0.9로 이미지당 평균 900개 가량의 mask 생성 • Mask가 1000개 이상 생성된 경우, confidence & stability score 상위 1000개로 제한함
  • 22. Zero-Shot Transfer Experiments Zero-Shot Instance Segmentation 22
  • 23. Zero-Shot Transfer Experiments Zero-Shot Text-to-Mask 23 • CLIP 모델
  • 24. Zero-Shot Transfer Experiments Zero-Shot Text-to-Mask 24 • CLIP 모델의 encoder만 활용 CLIP image encoder CLIP text encoder
  • 27. 27 • computer vision foundation model 제시 • 대규모 데이터셋 구축(SA-1B) (기존 Open Images 데이터셋보다 11배 이상의 image와 400배 이상의 mask) • zero-shot(unseen data classification) • 다양한 task의 문제를 해결 Conclusion