Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations

1,192 views

Published on

第53回コンピュータビジョン勉強会@関東での発表資料です。
Paper: https://arxiv.org/abs/1904.07934
Inference Code: https://github.com/nv-tlabs/STEAL
Project: https://nv-tlabs.github.io/STEAL/

Published in: Technology
  • Be the first to comment

Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations

  1. 1. 第53回 コンピュータビジョン勉強会@関東 CVPR2019読み会(前編) Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations 宮澤 一之 株式会社ディー・エヌ・エー
  2. 2. 自己紹介 • 2007〜2010年 東北大学博士課程 生体認証やステレオビジョンの研究に従事 日本学術振興会特別研究員(DC1) • 2010〜2019年 電機メーカ研究所 映像符号化、標準化活動 車載・監視カメラ物体認識、外観検査 • 2019年〜 DeNA 車載カメラ向け3Dビジョン 2 @kzykmyzw 宮澤 一之 株式会社ディー・エヌ・エー AI本部 AIシステム部 AI研究開発エンジニア
  3. 3. 3 Paper: https://arxiv.org/abs/1904.07934 Inference Code: https://github.com/nv-tlabs/STEAL Project: https://nv-tlabs.github.io/STEAL/
  4. 4. Semantic Edge Detection • 画像からエッジを検出すると共に各エッジ画素にSemantic Labelを与え る(e.g. 人と車両の境界) • Semantic Segmentationの双対問題であるが、エッジは古くから画像の 低次特徴として重要であり、中間表現として価値がある 4 Input Output https://arxiv.org/pdf/1705.09759.pdf
  5. 5. Related Work 5 https://www.youtube.com/watch?v=BNE1hAP6Qho Z. Yu et al., “CASENet: Deep Category-Aware Semantic Edge Detection,” CVPR2017
  6. 6. Contribution • アノテーションによる物体境界は不正確であることが多く、こうしたデータ で学習すると検出されるエッジが厚みを持ってしまうことを指摘 • エッジを細線化するための新たなレイヤとロスを提案 • 長い研究の歴史を持つ古典的な境界検出手法を取り入れることで、粗いアノ テーション境界を高精度化するフレームワークを提案 6 不正確 https://arxiv.org/pdf/1904.07934.pdf
  7. 7. STEAL (Semantically Thinned Edge Alignment Learning) • 細く、正確なエッジを生成するためのBoundary Thinning Layerを提案 • アノテーションのノイズを学習時に補正するActive Alignmentを提案 • バックボーンのアーキテクチャに依存しないため、既存の学習型エッジ 検出モデルへの追加導入が可能 7 https://arxiv.org/pdf/1904.07934.pdf
  8. 8. Semantic Aware Edge-Detection • 入力画像 x からK 種類の各物体クラスに対するエッジマップを生成する • 画素 m がクラス k に属するか否かを𝑦 𝑘 𝑚 ∈ 0,1 と表すと、確率 𝑃 𝑦 𝑘 𝑚 |𝐱; 𝜃 をパラメータ𝜃のニューラルネット f により推定する • 複数の物体の境界となるエッジを表現するため、各画素は複数のクラス に属することが可能 8 x https://arxiv.org/pdf/1904.07934.pdf yk
  9. 9. Semantic Aware Edge-Detection 9 x Binary Cross-Entropy Loss エッジの画素数 |Y| と 非エッジの画素数 |Y-| の 不均衡を補正 https://arxiv.org/pdf/1904.07934.pdf yk
  10. 10. Semantic Boundary Thinning Layer • 推定したエッジマップ上でエッジの法線方向に画素をサンプリング • サンプリング結果に対して温度付きSoftmaxをかける(τ = 0.1) 10 x https://arxiv.org/pdf/1904.07934.pdf p dp エッジ 法線 pt yk
  11. 11. Semantic Boundary Thinning Layer 11 x https://arxiv.org/pdf/1904.07934.pdf NMS loss p dp エッジ 法線 pt エッジ上の画素 p の出力が法線方向に 最大となるように制約をかける yk
  12. 12. Semantic Boundary Thinning Layer 12 x https://arxiv.org/pdf/1904.07934.pdf Direction loss dp エッジ 真の法線 真のエッジと推定したエッジとの間で法線 方向が一致するように制約をかける ep推定した法線 p yk
  13. 13. Full Augmented Loss 13
  14. 14. Active Alignment 14 x yk https://arxiv.org/pdf/1904.07934.pdf yk ^ • アノテーションによる境界 y をより高精度な境界 y にアラインメント • 境界 y とエッジ検出モデルのパラメータθ を同時に最適化 前項までで説明y 𝑘とy 𝑘を近付ける
  15. 15. Active Alignment 15 x yk https://arxiv.org/pdf/1904.07934.pdf yk ^ • 動的輪郭モデルを利用し、エネルギー最小化問題に帰着 輪郭の長さ 検出モデルの出力が大きい 箇所をy 𝑘が通るとき小さくなる y 𝑘と y 𝑘 が近いほど小さくなる 寄与率
  16. 16. Level Set Method • 2次元画像に対して3次元空間を設定し、そこに定義される補助関数 𝜙 のゼロ等高面 𝜙 = 0 の領域境界が求める境界であると考える • 補助関数の移動とゼロ等高面の切り出しとを繰り返すことで輪郭を追跡 • 補助関数の形状と制御を適切に設計することで滑らかな形状を保ちつつ 自然な形でSnakesでは不可能なトポロジーの変化に対応できる 16 https://en.wikipedia.org/wiki/Level-set_method 境界 y 𝑘 補助関数 𝜙
  17. 17. Learning • ロスの最小化は2ステップに分けて行う 1. 与えられた境界 y 𝑘 を境界検出モデルの出力に合わせて移動 2. 得られた境界 y 𝑘 を用いて境界検出モデルのパラメータ θ を最適化 • 学習初期はエッジ検出モデルの出力が信頼できないため、検出モデルの 学習が収束し始めてからActive Alignmentを導入(初期は 𝜆 = ∞) • 計算の効率化のため、Active Alignmentは限られたiterationでのみ適用 17
  18. 18. Experiments • 実装 - Backboneのエッジ検出モデルとしてCASENetを採用 - 学習時の画像サイズは472×472 - NVIDIA DGX Station (4 GPUs)で約2日 • データセット 18 Semantic Boundary Dataset http://home.bharathh.info/pubs/codes/SBD/download.html https://www.cityscapes-dataset.com/ The Cityscapes Dataset train: 8498 val: 100 test:2857 train: 2975 val: 500 test: 1525
  19. 19. Evaluation Protocol • カテゴリごとに真値と検出エッジとをBipartite Matchingで 対応づけ、対応が得られた画素とそうでない画素をカウン トすることでPrecision/Recallを計算 • 真値のクオリティに応じてデータセットごとに対応づけの 許容範囲を調整 • 評価尺度 - PRカーブの各点におけるF値のうち最大となる値 (Maximum F-Measure at Optimal Dataset Scale) - Average Precision (AP) 19
  20. 20. Comparisons with Other Methods • CASENetおよびその改善版であるCASENet-S、SEALと比較 • 2種類のデータセット、評価尺度のいずれにおいても最高性能 • NMS Lossを導入するだけでも従来から1%程度性能が向上 20 SBD Cityscapes
  21. 21. Effect of Active Alignment • Active Alignmentの効果を確認するため、真値境界を近似することでラ フな境界を生成して学習を実施 • 評価時には高精度な境界を利用 • NMS LayerとActive Alignmentの併用で15%以上APを改善 21 SBD
  22. 22. Comparisons with Semantic Segmentation • Semantic Segmentationの最新手法であるDeepLab-v3と比較 • DeepLabの出力に対して微分フィルタを適用してエッジを抽出 • 最も厳しい条件設定ではDeepLabよりも4.2%高性能 • Semantic SegmentationもIoUだけでなく境界の精度も評価すべき? 22 真値境界との対応づけ時の許容範囲 https://arxiv.org/pdf/1904.07934.pdf
  23. 23. Qualitative Results (SBD) 23 https://arxiv.org/pdf/1904.07934.pdf
  24. 24. Qualitative Results (Cityscapes) 24 https://arxiv.org/pdf/1904.07934.pdf
  25. 25. Refining Coarsely Annotated Data • 提案手法で学習済みの境界検出モデルを利用することで、ラフにアノ テーションされた境界を高精度化することが可能となる(𝜆 = 0) • 境界検出の代表例であるGrabCutと比較 • ラフな境界を初期値とした既存の境界検出手法よりも大幅に高精度 25 SBD Cityscapes
  26. 26. Refining Coarsely Annotated Data 26 https://arxiv.org/pdf/1904.07934.pdf
  27. 27. Better Segmentation • 提案手法で境界を高精度化したデータを用いることでSemantic Segmentationの精度がどれだけ変化するかを調査 • 高精度化によりカテゴリによっては1.2%以上IoUが改善 27 DeepLav-v3@Cityscapes https://arxiv.org/pdf/1904.07934.pdf
  28. 28. Conclusion • Semantic Edge Detectionにおいて、NMSを学習の中に取り込むことで 従来法に比べてシャープなエッジを生成することに成功 • CNNによるエッジ検出とレベルセット法を組み合わせることで、不正確 なアノテーション境界を高精度化するフレームワークを提案 • 労力が大きい物体境界アノテーションの低コスト化に貢献 28 https://nv-tlabs.github.io/STEAL/

×