Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Training object class detectors
with click supervision
ハワイ輪読会 2017
@conta_
緒方 貴紀 (@conta_)
CRO@ABEJA, Inc.
Computer VisionやMachine Learningの研究開発やっています
が最近は何をやっているのかわかりません
Self Introduction
簡単なアノテーションを作成するだけで、特定の物体検出がそこそこうまく
いくようになる手法の提案
物体検出の教師データを、物体の中心点(center-click annotation)のみ
にし、Multiple Instance Learnin...
Deep Leanring ✕ 一般物体検出は、大抵Bounding Boxを教師データとして与える
=> 大量のデータが必要なので、クラウドソーシングを活用
一般物体検出を学習させるときの課題
Deep Leanring ✕ 一般物体検出は、大抵Bounding Boxを教師データとして与える
=> 大量のデータが必要なので、クラウドソーシングを活用
でも、、、
WorkerがBounding Boxをannotationするの結構時...
物体にBounding Boxをつけるのではなく、物体中心をクリックするだけ
=> アノテータの作業大幅削減!
検出器は、Weakly Supervised Learning(MIL)を活用することでいい感じにできそう!
簡単なアノテーションで...
データの集め方
アノテーションをする際のWorkflow
アノテーションをする際のWorkflow
Instructions
物体を長方形で囲った時に中心となる位置にクリックしてね!
とアノテーターへ伝える
アノテーションをする際のWorkflow
アノテーターに、図のような多角形の画像に対して、中心をアノテーション
してもらい、アノテーション後に実際の中心とどれくらいずれているかの
フィードバックを与える。
=> 真値との誤差が20px以下になるまでくり返す
このテストをクリアすると
実...
アノテーションをする際のWorkflow
特定の枚数(ここでは20枚)を単位として、アノテーターに実際の作業(物体
中心のクリック)をしてもらう。
Qualityを担保するために、もともとGround Truthを持っているデータを
バッチごとにランダムに混ぜて(Golden ques...
Amazon Mechanical Turk (AMT) で実験
PASCAL VOC 2007でデータを作成(14,612 clicks in total for the
5,011 trainval images)
Annotation t...
物体検出器の作り方
Multiple Instance Learning (MIL)
[Dietterich et al., 1997]
positive bags(正解を1つ以上含む)
と、negative bags(正解を含まない)を
用いた機械学習手法の一つ...
Pre-trainされたAlexNet CNNとSVMを使って下記の2ステップを交互に回す
(I) re-localization
識別器Aをつかって、一番スコアの高くなる物体候補の位置を探す(Multi-folding/Objectness等...
■Box center score
アノテーションは必ずしも正確でないので、下記の式によって物体候補の尤度をスコアリング
p: proposal covering the object
c_p: center point
c: the clic...
■Use in re-localization
MILで物体検出を学習させるステップ時のre-localization step時に、
Appearance(S_ap)だけでなく、この中心尤度(S_bc)の項も使う
■Use in initia...
1人にアノテーションしてもらうより、2人にアノテーションしてもらったほうが精度良さ
そうだよね!
=> 2人のアノテーションした物体中心位置の差をモデリング
■Box center score
前述の式を c => c1 and c2に置き換え...
■Box area score
物体の大きさとアノテーションの誤差は相関がある(Fig. 4)
=> 2つのアノテーションの距離から物体候補を推定する(Fig. 6)
μ: 物体エリアの対数を推定するfunction(後術)、a_p: 物体候補...
クリックデータを活用するために必要なパラメータは下記の4つ
σ_bc:
d_max:
σ_ba:
μ(x):
Learning score parameters
クリックデータを活用するために必要なパラメータは下記の4つ
σ_bc:
d_max:
σ_ba:
μ(x):
Learning score parameters
Qualification Testから計算
70px(Max error dist...
■PASCAL VOC 2007
20 classes / 5,011 training images / 4,952 test images.
■Evaluation
- Correct Localization (CorLoc)
物体候補が...
Experimental results
■MS COCO dataset
80 classes / 82,783 training images / 40,504 val images
VOC 2007と同じ条件て計測
- Click supervision
COCOのデータセットに...
物体中心位置を与えるだけで物体検出ができるようになるアルゴリズムの提案
- MILを活用することで弱教師あり学習で識別器を学習する
- アノテーターのクリック位置から、統計値によって物体候補枠を推定
Weakly Supervisedなメソッド...
(余談) vs SOTA Object detection algorithm
J. Redmon and A. Farhadi. Yolo9000: Better, faster, stronger
Training object class detectors with click supervision
Upcoming SlideShare
Loading in …5
×

Training object class detectors with click supervision

6,193 views

Published on

ハワイ輪読会 2017資料

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Training object class detectors with click supervision

  1. 1. Training object class detectors with click supervision ハワイ輪読会 2017 @conta_
  2. 2. 緒方 貴紀 (@conta_) CRO@ABEJA, Inc. Computer VisionやMachine Learningの研究開発やっています が最近は何をやっているのかわかりません Self Introduction
  3. 3. 簡単なアノテーションを作成するだけで、特定の物体検出がそこそこうまく いくようになる手法の提案 物体検出の教師データを、物体の中心点(center-click annotation)のみ にし、Multiple Instance Learning(MIL)を適応することで、 教師データをBounding Boxを利用した時と同等の精度で、 アノテーターの作業時間を9〜18倍改善した What's this?
  4. 4. Deep Leanring ✕ 一般物体検出は、大抵Bounding Boxを教師データとして与える => 大量のデータが必要なので、クラウドソーシングを活用 一般物体検出を学習させるときの課題
  5. 5. Deep Leanring ✕ 一般物体検出は、大抵Bounding Boxを教師データとして与える => 大量のデータが必要なので、クラウドソーシングを活用 でも、、、 WorkerがBounding Boxをannotationするの結構時間かかる(25.5s/box) チェックに時間かかる 作業結果のクオリティー担保むずい 一般物体検出を学習させるときの課題
  6. 6. 物体にBounding Boxをつけるのではなく、物体中心をクリックするだけ => アノテータの作業大幅削減! 検出器は、Weakly Supervised Learning(MIL)を活用することでいい感じにできそう! 簡単なアノテーションで解決!
  7. 7. データの集め方
  8. 8. アノテーションをする際のWorkflow
  9. 9. アノテーションをする際のWorkflow
  10. 10. Instructions 物体を長方形で囲った時に中心となる位置にクリックしてね! とアノテーターへ伝える
  11. 11. アノテーションをする際のWorkflow
  12. 12. アノテーターに、図のような多角形の画像に対して、中心をアノテーション してもらい、アノテーション後に実際の中心とどれくらいずれているかの フィードバックを与える。 => 真値との誤差が20px以下になるまでくり返す このテストをクリアすると 実際の作業へ移ることができる Annotator training
  13. 13. アノテーションをする際のWorkflow
  14. 14. 特定の枚数(ここでは20枚)を単位として、アノテーターに実際の作業(物体 中心のクリック)をしてもらう。 Qualityを担保するために、もともとGround Truthを持っているデータを バッチごとにランダムに混ぜて(Golden questions)精度計測をする。 => 一定のQualityに満たない人のデータは受け付けない Annotating images
  15. 15. Amazon Mechanical Turk (AMT) で実験 PASCAL VOC 2007でデータを作成(14,612 clicks in total for the 5,011 trainval images) Annotation time: 平均1.87s/click、3.8時間でアノテーションを完了 Data collection
  16. 16. 物体検出器の作り方
  17. 17. Multiple Instance Learning (MIL) [Dietterich et al., 1997] positive bags(正解を1つ以上含む) と、negative bags(正解を含まない)を 用いた機械学習手法の一つ MILによる物体検出器作成 B. Babenko, M.-H. Yang, and S. Belongie. Visual Tracking with Online Multiple Instance Learning. In CVPR, 2009
  18. 18. Pre-trainされたAlexNet CNNとSVMを使って下記の2ステップを交互に回す (I) re-localization 識別器Aをつかって、一番スコアの高くなる物体候補の位置を探す(Multi-folding/Objectness等で物体候 補を探す) (II) re-training (I)で探した位置をPositiveとして、識別器AをSVMにて学習させる 一定回数イテレーションを回した後、(II)のフェーズで、識別器AをFast RCNNにして再学習 MILによる物体検出器作成 物体候補pのスコアは、識別器Aと物体候補らしさO*を使って、下記のように計算する *What is an object? In CVPR, 2010
  19. 19. ■Box center score アノテーションは必ずしも正確でないので、下記の式によって物体候補の尤度をスコアリング p: proposal covering the object c_p: center point c: the click One-click supervision 中心点のアノテーション活用方法
  20. 20. ■Use in re-localization MILで物体検出を学習させるステップ時のre-localization step時に、 Appearance(S_ap)だけでなく、この中心尤度(S_bc)の項も使う ■Use in initialization サンプルする物体検出候補は、画像全体からでなく、画像の境界をはみ出ない 大きさでサンプリングすることで良い精度になる。特に、クリックが画像の境界に 近い場合、より良いMILの初期値を得ることができる One-click supervision
  21. 21. 1人にアノテーションしてもらうより、2人にアノテーションしてもらったほうが精度良さ そうだよね! => 2人のアノテーションした物体中心位置の差をモデリング ■Box center score 前述の式を c => c1 and c2に置き換えるだけ ただし、右写真のように2つのクリックが離れてた場合は、 しきい値d_maxを設けて、別々の物体として扱う Two-click supervision
  22. 22. ■Box area score 物体の大きさとアノテーションの誤差は相関がある(Fig. 4) => 2つのアノテーションの距離から物体候補を推定する(Fig. 6) μ: 物体エリアの対数を推定するfunction(後術)、a_p: 物体候補エリア (a_p - μ)は2つのエリアの対数比を表す ■Use in re-localization 前述と同じような形でトータルスコアに組み合わせる Two-click supervision
  23. 23. クリックデータを活用するために必要なパラメータは下記の4つ σ_bc: d_max: σ_ba: μ(x): Learning score parameters
  24. 24. クリックデータを活用するために必要なパラメータは下記の4つ σ_bc: d_max: σ_ba: μ(x): Learning score parameters Qualification Testから計算 70px(Max error distanceが70pxぐらいだったので) 2クリックの距離と 物体エリアの対数比を 多項式回帰でfitting μ(x)のaverage errorを使う
  25. 25. ■PASCAL VOC 2007 20 classes / 5,011 training images / 4,952 test images. ■Evaluation - Correct Localization (CorLoc) 物体候補が正しい位置にあるか?(Bounding Boxの重なり度合い (i.e. IoU ≧ 0.5) )を測る *Training Imageに対して計測 - mAP 学習器が正しく動くか、Test Imageに対してmAPを計測 Experimental results
  26. 26. Experimental results
  27. 27. ■MS COCO dataset 80 classes / 82,783 training images / 40,504 val images VOC 2007と同じ条件て計測 - Click supervision COCOのデータセットに対してはクリックアノテーションを シミュレーションで行った Experimental results
  28. 28. 物体中心位置を与えるだけで物体検出ができるようになるアルゴリズムの提案 - MILを活用することで弱教師あり学習で識別器を学習する - アノテーターのクリック位置から、統計値によって物体候補枠を推定 Weakly Supervisedなメソッドより精度が大幅に向上 アノテーションを9-18倍高速にできた Conclusion
  29. 29. (余談) vs SOTA Object detection algorithm J. Redmon and A. Farhadi. Yolo9000: Better, faster, stronger

×