Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Annotating Object Instances
with a Polygon-RNN
@conta_
Takanori Ogata (@conta_)
Co-Founder & Chief Research Officer@ABEJA, Inc.
Computer VisionやMachine Learning
の研究開発をやっています(なんでもや...
Semantic Segmentation
3
Pohlen et al., CVPR 2017
Long et al., CVPR 2015
みんな大好きSemantic Segmentation
Semantic Segmentation
4
大量にアノテーションされたデータの登場
クラウドソーシング大変…
データ作成には、時間もお金も必要
Problem
5
Cityscapesデータセットにおいて
ground-truthと比較して、
78.4%のIoUの正確さを保ったまま、
4.7倍のアノテーション効率化を達成
Semantic Segmentationのアノテーション効率化に関する論文
(Or...
Weakly-supervised / Scribbles / GrabCut
Supervisedには精度面で勝ててない
精度面であんまり使えないので、作成したデータは正式なSegmentation
Dataとして配布されない?
Previo...
Goal
PolygonでObjectにAnnotationできる、
効率的なSemantic Segmentation Tool
の作成
提案手法
ユーザーがObjectにBounding Boxを与
えると、Polygonが自動的に生成され...
Polygon-RNN
RNNによって、2つ前の頂点情報を使って、次の1点を予測する
CNN + RNNでend-to-endに学習
Overview
9
Model Architecture
10
Model Architecture
11
VGG + concat
ConvLSTM
input: x_t + y_{t-1} + y_{t-2}
D x D + 1
One-hot Encoding
(D x D: 2D position,...
Model Architecture
12
VGG + concat
ConvLSTM
input: x_t + y_{t-1} + y_{t-2}
D x D + 1
One-hot Encoding
(D x D: 2D position,...
前述アーキテクチャと同じもので、始点を予測
2つのbranchを使う (Object Boundaries / Vertices of Polygon)
Predicting starting point
13
D x D
Object Bou...
RNN:
cross-entropy at each time step of the RNN
First vertex prediction:
Train another CNN using a multi-task loss
logisti...
Cityscapes Dataset
2975 training, 500 validation and 1525 test images
Test imagesにGround Truthがないので、validation dataをtest d...
Prediction Mode
人がAnnotatonすることなしに、どの程度正確に予測できたかを計測
Baseline
DeepMask/SharpMask
Semantic Segmentationタスクとの比較指標
COCOで学習されてい...
6 / 8 カテゴリーで優勢
Prediction Mode (Results)
17
Object Sizeが小さいときは提案手法優勢
逆は弱い (28 x 28で予測してるから??)
Prediction Mode (Effect of object size))
18
=> 精度と大体のトレードオフを確認
Annotator in the loop
19
提案手法のいいところは人がアノテーションを修正できるところ
正解に近づくまで、どの程度人が修正するか(Click数)を計測
GT Vertexまでの距離をt...
High-quality(よく訓練された云々)なannotatorを雇って効果検証
車のみにタスクを絞って、10個のランダムにセレクトされたデータから
下記の2つに対してアノテーションしてもらう(フルスクラッチで)
1) 全体の画像
2) 画像...
Results
21
Results
22
アノテーターなしでも精度はよく、途中から修正可能なフレームワーク
により高精度にアノテーションできる
Semantic Segmentationのアノテーション効率化に関する論文
アノテーションの効率を上げるために、ボックス内の物体頂点予測
+...
We are hiring!
https://www.wantedly.com/companies/abeja
Upcoming SlideShare
Loading in …5
×

Annotating object instances with a polygon rnn

1,726 views

Published on

Annotating object instances with a polygon rnn

Published in: Technology
  • Be the first to comment

Annotating object instances with a polygon rnn

  1. 1. Annotating Object Instances with a Polygon-RNN @conta_
  2. 2. Takanori Ogata (@conta_) Co-Founder & Chief Research Officer@ABEJA, Inc. Computer VisionやMachine Learning の研究開発をやっています(なんでもやってます) Self Introduction 2
  3. 3. Semantic Segmentation 3 Pohlen et al., CVPR 2017 Long et al., CVPR 2015 みんな大好きSemantic Segmentation
  4. 4. Semantic Segmentation 4 大量にアノテーションされたデータの登場
  5. 5. クラウドソーシング大変… データ作成には、時間もお金も必要 Problem 5
  6. 6. Cityscapesデータセットにおいて ground-truthと比較して、 78.4%のIoUの正確さを保ったまま、 4.7倍のアノテーション効率化を達成 Semantic Segmentationのアノテーション効率化に関する論文 (Oral Presentation - Honorable Mention Best Paper Award) アノテーションの効率を上げるために、ボックス内の物体頂点予測+RNN によるインタラクティブに修正できるアルゴリズムの提案 Annotating Object Instances with a Polygon-RNN 6 http://www.cs.toronto.edu/polyrnn/
  7. 7. Weakly-supervised / Scribbles / GrabCut Supervisedには精度面で勝ててない 精度面であんまり使えないので、作成したデータは正式なSegmentation Dataとして配布されない? Previous Works 7 Lin et al., CVPR 2016 Chen et al., CVPR 2014
  8. 8. Goal PolygonでObjectにAnnotationできる、 効率的なSemantic Segmentation Tool の作成 提案手法 ユーザーがObjectにBounding Boxを与 えると、Polygonが自動的に生成され、 ユーザーがVertexを調整することができる Polygon-RNN 8
  9. 9. Polygon-RNN RNNによって、2つ前の頂点情報を使って、次の1点を予測する CNN + RNNでend-to-endに学習 Overview 9
  10. 10. Model Architecture 10
  11. 11. Model Architecture 11 VGG + concat ConvLSTM input: x_t + y_{t-1} + y_{t-2} D x D + 1 One-hot Encoding (D x D: 2D position, +1: end-of-sequence)
  12. 12. Model Architecture 12 VGG + concat ConvLSTM input: x_t + y_{t-1} + y_{t-2} D x D + 1 One-hot Encoding (D x D: 2D position, +1: end-of-sequence) 始点をどう予測するのか?
  13. 13. 前述アーキテクチャと同じもので、始点を予測 2つのbranchを使う (Object Boundaries / Vertices of Polygon) Predicting starting point 13 D x D Object Boundaries D x D Vertices of Polygon
  14. 14. RNN: cross-entropy at each time step of the RNN First vertex prediction: Train another CNN using a multi-task loss logistic loss for every location in the grid Training 14 D x D D x D
  15. 15. Cityscapes Dataset 2975 training, 500 validation and 1525 test images Test imagesにGround Truthがないので、validation dataをtest dataとして使う Cityscapesはオクルージョンがあるデータも含んでいるので、それらは学習から除く Polygonデータはセグメンテーションデータから作成 Evaluation Metrics Quality: intersection over union (IoU)により計測 アノテーション: 予測したvertexをどの程度修正してGT vertexに近づいたか(Click数)により計測 Experiments (Cityscapes Dataset) 15
  16. 16. Prediction Mode 人がAnnotatonすることなしに、どの程度正確に予測できたかを計測 Baseline DeepMask/SharpMask Semantic Segmentationタスクとの比較指標 COCOで学習されているため、Cityscapesを使ってFinetune SquareBox/Dilation10 Objectに対してBounding Boxがある場合の指標 Prediction Mode 16
  17. 17. 6 / 8 カテゴリーで優勢 Prediction Mode (Results) 17
  18. 18. Object Sizeが小さいときは提案手法優勢 逆は弱い (28 x 28で予測してるから??) Prediction Mode (Effect of object size)) 18
  19. 19. => 精度と大体のトレードオフを確認 Annotator in the loop 19 提案手法のいいところは人がアノテーションを修正できるところ 正解に近づくまで、どの程度人が修正するか(Click数)を計測 GT Vertexまでの距離をthreshに近づくまで計測(chessboard metric)
  20. 20. High-quality(よく訓練された云々)なannotatorを雇って効果検証 車のみにタスクを絞って、10個のランダムにセレクトされたデータから 下記の2つに対してアノテーションしてもらう(フルスクラッチで) 1) 全体の画像 2) 画像をクロップして、物体中心点を与える Annotator in the loop 20 IoUは高く、クリック数も減らせている
  21. 21. Results 21
  22. 22. Results 22
  23. 23. アノテーターなしでも精度はよく、途中から修正可能なフレームワーク により高精度にアノテーションできる Semantic Segmentationのアノテーション効率化に関する論文 アノテーションの効率を上げるために、ボックス内の物体頂点予測 +RNNによる頂点データの時系列予測 Summary 23
  24. 24. We are hiring! https://www.wantedly.com/companies/abeja

×