"simple does it weakly supervised instance and semantic segmentation" Paper review
1.
Simple Does It:Weakly Supervised
Instance and Semantic Segmentation
Anna Khoreva, Rodrigo Benenson, Jan Hosang, Matthias Hein, Bernt Schiele
Max Planck Institute for Informatics, Saarbrücken, Germany
Saarland University, Saarbrücken, Germany
Introduction
• Simple DoesIt: Weakly Supervised Instance and Semantic Segmentation(2017, CVPR)
• Segmentation은 Labeling Cost가 매우 크다
• MS COCO 데이터셋 논문에 의하면 Detection을 위한 Bounding box 대비 Seg Mask labeling 시간이 약 15배 오래 걸림
• Motivation : Fully Supervised Label(Mask) 대신 Weakly Supervised Label(Box)를 사용하면 어떨까?
4.
Introduction
• PASCAL VOC,MS COCO 데이터셋에 대해 실험 진행
• VOC12 segmentation dataset
• Train: 1464 → 10582(augmentation) / Validation: 1449 / Test: 1456 images
• 20가지의 Class가 있으며 natural image로 구성되어 있음
• MS COCO segmentation dataset
• 전체 데이터셋 중 VOC의 20가지 class에 해당하는 데이터만 사용
• 99310장의 이미지를 Train + Validation으로 사용하였으며 VOC12와 함께 사용 (COCO pretraining → VOC fine tuning)
5.
Related Work
• SemanticSegmentation
• 논문 저자는 DeepLab 기반으로 연구 수행
• 대부분의 알고리즘은 post-processing을 통해 테두리의 Quality를 높임
• 본 논문에서는 DenseCRF(Fully-connected CRF)를 사용
6.
Related Work
• WeaklySupervised semantic segmentation
• Image label, point, scribble, bounding box, fraction of images 등의 weakly supervision
• 본 논문에서는 bounding box를 weakly supervision으로 사용
7.
Related Work
• WeaklySupervised semantic segmentation
• 대부분의 선행 연구는 Recursive training procedure 기반 --> 본 논문도 차용
• 부정확한 mask로 학습을 시켜도 그럴싸한 결과가 나오는 이유: deep convnet이 labeling noise에 어느 정도 robust하기 때문
• Baseline으로 BoxSup, WSSL 선정, 성능 비교 수행
• 두 선행 연구는 weakly supervision을 이용하여 convnet의 학습 과정에 변화를 줌
• 본 논문은 학습 과정에 변화를 주지 않고, input label에 변화를 주는 방식이라 기존 망에 쉽게 이식 가능
GT of next round …
8.
Related Work
• InstanceSegmentation
• 논문 저자는 DeepMask 기반으로 연구 수행
• Semantic Segmentation에서 사용한 DeepLab도 Instance Segmentation 용으로 개조하여 사용
9.
Contribution
• Weakly SupervisedSemantic Segmentation에서 Recursive training을 하며 성능을 높이는
방법과 한계점들에 대해 탐색
• GrabCut-like algorithm을 통해 위의 한계를 해결하고 SOTA 성능 달성
• Bounding box만 사용하였을 때의 가장 높은 성능 달성 및 Fully-supervision과 유사한 성능
달성
• Instance Segmenation에서 Weakly Supervision에서 Fully-supervision과 유사한 성능 달성
10.
Method(Semantic Segmentation)
• Naïveapproach
• 주어진 Bounding Box를 GT Mask로 사용하는 가장 기본적인 접근 방법
• Network의 output을 다음 학습의 GT Mask로 사용하는 Recursive Training 기법
• Naïve approach로는 좋은 성능을 얻지 못함
GT of next round …
11.
Method(Semantic Segmentation)
• Boxapproach
• Naïve approach에 3가지 post processing을 적용한 approach
• Cue 1: box annotation 밖의 pixel은 background로 가정 (False-Positive GT Mask 제거)
• Cue 2: output segment의 면적이 너무 작으면(ex, IoU with Box < 0.5) box를 다시 GT Mask로 사용
• Cue 3: DenseCRF를 통해 boundary의 segmentation 성능 높임
GT of next round …
12.
Method(Semantic Segmentation)
• Boxiapproach
• Box approach에서 Ignore Region을 설정한 변형 approach
• Ignore Region: Box의 내부 20%만 GT Mask로 사용하고 나머지 영역은 ignore region으로 설정
• Recall을 희생해서 Precision을 올리는 접근 방법
• Box approach 보다 약간의 성능 향상
13.
Method(Semantic Segmentation)
• GrabCutapproach
• Classic Computer Vision 알고리즘인 GrabCut을 Bounding Box에 적용하여 GT Mask로 사용
• GrabCut+ approach
• GrabCut approach에 HED Boundary Detector 를 추가로 적용
old school meets new school!
GrabCut HED Boundary Detector
Holistically-nested Edge Detection
14.
Method(Semantic Segmentation)
• MCGapproach
• 마찬가지로 Vision algorithm인 Multiscale combinatorial grouping(MCG)를 이용하여 GT mask로 사용
• 선행 연구인 BoxSup도 이 방식을 사용하지만, 제안하는 방법은 학습 과정에 변화를 주지 않아도 됨
• M∩G+ approach
• MCG와 GrabCut+ 을동시에 이용한 approach
old school meets new school!
Box 방식과 비교할 때 훨씬
구체적인 initial GT 제공
15.
Result(Semantic Segmentation)
• PASCALVOC, MS COCO 데이터셋에 대해 실험 진행
• VOC12 segmentation dataset + MS COCO segmentation dataset
• 20가지 class, natural image
• Implementation details and evaluation
• DeepLab-LargeFOV network, ImageNet pretrained weight 사용
• At test time, DenseCRF 이용
• Input training data만 제외하면 모든 training, test 과정은 fixed(아마도 randomness를 제거)
• Evaluation: mIoU(pixel intersection over union averaged across 21 classes)
Result(Semantic Segmentation)
• 실험결과(Semi-Supervised)
• 일부 이미지는 Full supervision, 일부 이미지는 weakly supervision이 존재하는 경우를 가정
• 실험에서는 Full supervision이 10%라 가정
• VOC의 경우 별다른 성능 변화 X
• VOC + COCO의 경우 성능 향상 확인
* FS% → Full Supervision 대비 몇 %의 성능인지
Result(Instance Segmentation)
• 실험결과(Weakly Supervised)
• Weakly supervised instance segmentation 최초의 연구
• DeepMask와 본인들이 수정한 DeepLab V2 로 실험 진행
• Instance Segmentation은 Bounding Box 정보 필요
• Training: GT Bounding Box
• Test: output of Faster R-CNN
• Full Supervision과 비슷한 수준의 ABO 성능 달성
* ABO → Average Best Overlap
Conclusion
• Simple DoesIt: Weakly Supervised Instance and Semantic Segmentation(2017, CVPR)
• Labeling Cost가 매우 큰 Segmentation의 문제점을 Weakly Supervision으로 해결
• Natural Image Dataset에 대해서 Full Supervision과 거의 비슷한 수준(~95%)을 달성할 수 있음을 보임
• 기존의 Vision 알고리즘들을 적절히 활용하여 성능을 높임