Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
The Cityscapes
Dataset for Semantic Urban
Scene Understanding
第35回CV勉強会「CVPR2016読み会(後編)」
2016/7/24
進矢陽介
自己紹介
2007~2014 東京大学
話者認識
形状の数式表現、Mixed Reality
2014~2015 三菱電機
車内センシング(ドライバモニタ)
2015~ デンソー(東京支社)
車外センシング(ADAS、自動運転)
技術動向調査(...
0. 導入 (1)Semantic Urban Scene Understandingとは
今回主に扱うのは、都市交通環境のSemantic Segmentation
Cityscapes Dataset
[M.Cordts+, CVPR201...
0. 導入 (2)Semantic Segmentationとは
http://www.slideshare.net/nlab_utokyo/deep-learning-49182466 より引用
(Classification)
0. 導入 (3)CNNによるSemantic Segmentation
FCN[J.Long+, CVPR2015]
← Classification
何が映っているか
矩形ごとに出力
← Semantic Segmentation
何が映っ...
0. 導入 (4)アノテーションの呪い (The Curse of Dataset Annotation)
[J.Xie+, CVPR2016]を元に作成
← 短時間でアノテーションできるタスクの
データは大量にある
← アノテーションに時間が...
0. 導入 (5)今回紹介する論文・データセット
1. Cityscapes Dataset [M.Cordts+, CVPR2016]
2. 3D to 2D Label Transfer [J.Xie+, CVPR2016]
3. SYNT...
1. Cityscapes
論文: http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Cordts_The_Cityscapes_Dataset_C
VPR_20...
1. Cityscapes (1)データの特徴
Fine annotations
・5000枚
・Instance-wise annotation
(人は1人ずつ、車は1台ずつ)
・品質を保証するため内製
・1枚あたり1時間半かけて
アノテーシ...
1. Cityscapes (1)データの特徴
従来のデータセットとは一線を画す、多様・大規模なデータセット
アノテーションピクセル数
1. Cityscapes (2)Instance数最大のデータ
1. Cityscapes (3)評価結果
使用解像度が精度に大きく影響
Cityscapesを使って学習すると
他のデータセットでも精度向上
↑
downscaling factor
2. 3D to 2D Label Transfer
Semantic Instance Annotation of Street
Scenes by 3D to 2D Label Transfer
Jun Xie, Martin Kiefel...
2. 3D to 2D Label Transfer (1)データの特徴
①LIDARで3Dデータを取得
②3Dの状態でアノテーション
③3Dから2Dに転写
・40万枚の画像
・10万のレーザースキャンデータ
・semantic 3D anno...
2. 3D to 2D Label Transfer (2)手法
ピクセルと3D点群のラベルを同時に推定するCRFモデルを使用
Pixel Unary Potentials
3D Point Unary Potentials
Geometric...
2. 3D to 2D Label Transfer (2)手法
②Geometric Unary Potentials
Curb, Foldを検出し、道路・歩道・壁のラベル変化に対応
2. 3D to 2D Label Transfer (3)定量評価結果
2D to 2D(±5フレームの画像から中間画像を推定)の従来手法、
単純な3D to 2Dの転写と比較し、高精度
2D to 2D
3D to 2D
2. 3D to 2D Label Transfer (4)アノテーション時間
2Dでは20時間かかるアノテーション(※)を
提案手法では3時間未満でアノテーション可能
※条件:
・200フレームの動画を10フレームごとにアノテーション
・1枚...
2. 3D to 2D Label Transfer (5)定性評価結果
3D点群転写結果
入力画像
+
segmentation結果
error map
大部分の境界を正しく推定できるが
いくつか課題あり(樹、コントラストの低い領域、等)
3. SYNTHIA
論文: http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Ros_The_SYNTHIA_Dataset_CVPR_
2016_paper....
3. SYNTHIA (1)データの特徴
• CGで生成した架空の都市のデータ
• 季節・天気・照明条件・視点の変動あり
• ground truth: semantic segmentation, depth
詳細は公式動画をご覧下さい
ht...
3. SYNTHIA (2)手法
• 2種のCNNでSemantic Segmentation
- T-Net [G.Ros+, arXiv2016]
- FCN [J.Long+, CVPR2015]
• 実写データとCGデータを交ぜて学習す...
3. SYNTHIA (3)定量評価結果
実写データとCGデータを併用して学習することで
実写データのみで学習した場合と比較し精度向上
(Camvid, KITTIの場合、Class Accuracyが10%前後向上)
3. SYNTHIA (4)定性評価結果
Real(実写) + Virtual(CG) が優勝
4. Virtual KITTI
論文: http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Gaidon_Virtual_Worlds_as_CVPR_2
016...
4. Virtual KITTI (1)データの特徴
KITTI (multi-object
tracking benchmark)
Virtual KITTI
ground truth
optical flow, segmentation, ...
4. Virtual KITTI (1)データの特徴
カメラの向き、時間帯、天気の7種の変動を用意
4. Virtual KITTI (2)評価結果
• multi-object trackingの精度を、2種のTrackerで評価
• 実写データでの学習とCGデータでの学習で同程度の精度
→ CGデータが実写データの代替として有用
4. Virtual KITTI (2)評価結果
CGデータでプレトレーニングし
実写データでファインチューニングすることで精度向上
5. Scene Flow Datasets
論文: http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Mayer_A_Large_Dataset_CVPR_20...
5. Scene Flow Datasets (1)先行研究
Flying Chairs Dataset (FlowNet [A.Dosovitskiy+, ICCV2015])
・椅子が空を飛ぶデータセット
・奥行き方向には飛ばない
・オプテ...
5. Scene Flow Datasets (2)データの特徴
③Driving
(KITTIリスペクト)
②Monkaa
(Sintelリスペクト)
①FlyingThings3D
・色んな物が空を飛ぶデータセット(椅子だけじゃない!)
・...
5. Scene Flow Datasets (3)手法
①オプティカルフローを推定するFlowNetを学習
②視差を推定するDispNetを2つ学習
③ ①,②を統合したSceneFlowNetを学習
シーンフローの計算に
時刻t, t+1の...
5. Scene Flow Datasets (4)視差評価結果
精度では劣るが1000倍高速
http://www.cvlibs.net/datasets/kitti/eval_scene_flow.php
?benchmark=stereo...
5. Scene Flow Datasets (5)シーンフロー評価結果
オプティカルフロー・視差を別々に求めるより
SceneFlowNetで統合して求める方が高精度
オプティカルフロー推定では、Flying Chairs Datasetには...
まとめ
• Semantic Urban Scene Understanding に関する
5つの論文・データセットを紹介
• Semantic Segmentation用データを如何に集め、
如何に使うべきかは現時点で判断できず、更なる研究が...
補足:CVPR2016で目についた傾向
Segmentation関連が約65件、うちSemantic Segmentationが約30件
(タイトル・セッション名で検索)
• Multi-scale対応
FCN等でreceptive field...
補足:CNNによるピクセルラベリング
http://people.eecs.berkeley.edu/~jonlong/ より引用
・似た構造のCNNで、Semantic Segmentation以外にも様々な応用が可能
・複数のタスクが相補的...
Upcoming SlideShare
Loading in …5
×

Dataset for Semantic Urban Scene Understanding

3,469 views

Published on

第35回コンピュータビジョン勉強会@関東「CVPR2016読み会(後編)」発表資料。
CVPR2016で発表された、都市交通環境のSemantic Segmentationに関する5本の論文・データセットをまとめています。

Published in: Technology

Dataset for Semantic Urban Scene Understanding

  1. 1. The Cityscapes Dataset for Semantic Urban Scene Understanding 第35回CV勉強会「CVPR2016読み会(後編)」 2016/7/24 進矢陽介
  2. 2. 自己紹介 2007~2014 東京大学 話者認識 形状の数式表現、Mixed Reality 2014~2015 三菱電機 車内センシング(ドライバモニタ) 2015~ デンソー(東京支社) 車外センシング(ADAS、自動運転) 技術動向調査(cvpaper.challenge参加) http://toyota.jp/technology/safety/toyota_safety_sense_p/ より引用 三菱電機公式サイトより引用 ※本発表は個人として行うものであり 所属組織を代表するものではありません
  3. 3. 0. 導入 (1)Semantic Urban Scene Understandingとは 今回主に扱うのは、都市交通環境のSemantic Segmentation Cityscapes Dataset [M.Cordts+, CVPR2016] これを こうしたい 道路 空 車 樹 建物 標識
  4. 4. 0. 導入 (2)Semantic Segmentationとは http://www.slideshare.net/nlab_utokyo/deep-learning-49182466 より引用 (Classification)
  5. 5. 0. 導入 (3)CNNによるSemantic Segmentation FCN[J.Long+, CVPR2015] ← Classification 何が映っているか 矩形ごとに出力 ← Semantic Segmentation 何が映っているか ピクセルごとに出力 ①基本原理 ②学習方法 ③データの集め方 どのピクセルが猫かをアノテーション(正解ラベル付け)すれば良い 一体どうやって? 人がやったら時間がかかるぞ…… データ数 GPU レベルを上げて物理で殴ればいい
  6. 6. 0. 導入 (4)アノテーションの呪い (The Curse of Dataset Annotation) [J.Xie+, CVPR2016]を元に作成 ← 短時間でアノテーションできるタスクの データは大量にある ← アノテーションに時間がかかるため 十分なデータが無い どうにかして大量のデータが欲しい
  7. 7. 0. 導入 (5)今回紹介する論文・データセット 1. Cityscapes Dataset [M.Cordts+, CVPR2016] 2. 3D to 2D Label Transfer [J.Xie+, CVPR2016] 3. SYNTHIA Dataset [G.Ros+, CVPR2016] 4. Virtual KITTI Dataset [A.Gaidon+, CVPR2016] 5. Scene Flow Datasets [N.Mayer+, CVPR2016] FCN, SegNetの詳細等は紹介しないため、以下をご参照下さい https://computing.ece.vt.edu/~f15ece6504/ (W7: Oct 6) http://www.slideshare.net/Takayosi/ieee-itss-nagoya-chapter (p.40あたり) http://www.slideshare.net/cvpaperchallenge 人手で頑張ろう 3Dスキャン データを使おう CGを使おう
  8. 8. 1. Cityscapes 論文: http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Cordts_The_Cityscapes_Dataset_C VPR_2016_paper.pdf プロジェクトページ: https://www.cityscapes-dataset.com/ スライド: https://www.mpi-inf.mpg.de/fileadmin/inf/d2/HLCV/HLCV_2016/cv-ss16-0707- deep-learning3.pdf The Cityscapes Dataset for Semantic Urban Scene Understanding Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth, Bernt Schiele
  9. 9. 1. Cityscapes (1)データの特徴 Fine annotations ・5000枚 ・Instance-wise annotation (人は1人ずつ、車は1台ずつ) ・品質を保証するため内製 ・1枚あたり1時間半かけて アノテーション+チェック Coarse annotations ・20000枚 ・弱教師あり学習用 (使わなくても良い) ・外注 ・1枚あたり7分以下で アノテーション
  10. 10. 1. Cityscapes (1)データの特徴 従来のデータセットとは一線を画す、多様・大規模なデータセット アノテーションピクセル数
  11. 11. 1. Cityscapes (2)Instance数最大のデータ
  12. 12. 1. Cityscapes (3)評価結果 使用解像度が精度に大きく影響 Cityscapesを使って学習すると 他のデータセットでも精度向上 ↑ downscaling factor
  13. 13. 2. 3D to 2D Label Transfer Semantic Instance Annotation of Street Scenes by 3D to 2D Label Transfer Jun Xie, Martin Kiefel, Ming-Ting Sun, Andreas Geiger 論文: http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Xie_Semantic_Instance_Annotation_CVPR _2016_paper.pdf プロジェクトページ: http://www.cvlibs.net/projects/label_transfer/ (2016/7/23時点では未公開)
  14. 14. 2. 3D to 2D Label Transfer (1)データの特徴 ①LIDARで3Dデータを取得 ②3Dの状態でアノテーション ③3Dから2Dに転写 ・40万枚の画像 ・10万のレーザースキャンデータ ・semantic 3D annotations ・郊外の静止物にフォーカス ・先行研究と相補的 - Cityscapes:都市 - [L.-C.Chen+, CVPR2014]: 車両へのCADモデルあてはめ データセット作成方法 データセット内容 収集対象
  15. 15. 2. 3D to 2D Label Transfer (2)手法 ピクセルと3D点群のラベルを同時に推定するCRFモデルを使用 Pixel Unary Potentials 3D Point Unary Potentials Geometric Unary Potentials Pixel Pairwise Potentials 2D/3D Pairwise Potentials 3D Pairwise Potentials ①Gibbs energy function
  16. 16. 2. 3D to 2D Label Transfer (2)手法 ②Geometric Unary Potentials Curb, Foldを検出し、道路・歩道・壁のラベル変化に対応
  17. 17. 2. 3D to 2D Label Transfer (3)定量評価結果 2D to 2D(±5フレームの画像から中間画像を推定)の従来手法、 単純な3D to 2Dの転写と比較し、高精度 2D to 2D 3D to 2D
  18. 18. 2. 3D to 2D Label Transfer (4)アノテーション時間 2Dでは20時間かかるアノテーション(※)を 提案手法では3時間未満でアノテーション可能 ※条件: ・200フレームの動画を10フレームごとにアノテーション ・1枚のアノテーションに60分かかると仮定
  19. 19. 2. 3D to 2D Label Transfer (5)定性評価結果 3D点群転写結果 入力画像 + segmentation結果 error map 大部分の境界を正しく推定できるが いくつか課題あり(樹、コントラストの低い領域、等)
  20. 20. 3. SYNTHIA 論文: http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Ros_The_SYNTHIA_Dataset_CVPR_ 2016_paper.pdf プロジェクトページ: http://synthia-dataset.net/ The SYNTHIA Dataset: A Large Collection of Synthetic Images for Semantic Segmentation of Urban Scenes German Ros, Laura Sellart, Joanna Materzynska, David Vazquez, Antonio M. Lopez
  21. 21. 3. SYNTHIA (1)データの特徴 • CGで生成した架空の都市のデータ • 季節・天気・照明条件・視点の変動あり • ground truth: semantic segmentation, depth 詳細は公式動画をご覧下さい http://synthia-dataset.net/dataset/
  22. 22. 3. SYNTHIA (2)手法 • 2種のCNNでSemantic Segmentation - T-Net [G.Ros+, arXiv2016] - FCN [J.Long+, CVPR2015] • 実写データとCGデータを交ぜて学習する方法 BGC (Balanced Gradient Contribution) [G.Ros+, arXiv2016]を使用し CGデータの重要度を下げる(発散を防ぐ効果あり) 実際には、実写データ6枚とCGデータ4枚を含むミニバッチを 使用しているだけ(λ=4/6) (実写データでのロス) + λ(CGデータでのロス)
  23. 23. 3. SYNTHIA (3)定量評価結果 実写データとCGデータを併用して学習することで 実写データのみで学習した場合と比較し精度向上 (Camvid, KITTIの場合、Class Accuracyが10%前後向上)
  24. 24. 3. SYNTHIA (4)定性評価結果 Real(実写) + Virtual(CG) が優勝
  25. 25. 4. Virtual KITTI 論文: http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Gaidon_Virtual_Worlds_as_CVPR_2 016_paper.pdf プロジェクトページ:http://www.xrce.xerox.com/Research-Development/Computer- Vision/Proxy-Virtual-Worlds http://www.xrce.xerox.com/Research-Development/Publications/2015-085 Virtual Worlds as Proxy for Multi-Object Tracking Analysis Adrien Gaidon, Qiao Wang, Yohann Cabon, Eleonora Vig
  26. 26. 4. Virtual KITTI (1)データの特徴 KITTI (multi-object tracking benchmark) Virtual KITTI ground truth optical flow, segmentation, depth CGで クローン作成
  27. 27. 4. Virtual KITTI (1)データの特徴 カメラの向き、時間帯、天気の7種の変動を用意
  28. 28. 4. Virtual KITTI (2)評価結果 • multi-object trackingの精度を、2種のTrackerで評価 • 実写データでの学習とCGデータでの学習で同程度の精度 → CGデータが実写データの代替として有用
  29. 29. 4. Virtual KITTI (2)評価結果 CGデータでプレトレーニングし 実写データでファインチューニングすることで精度向上
  30. 30. 5. Scene Flow Datasets 論文: http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Mayer_A_Large_Dataset_CVPR_2016_pa per.pdf プロジェクトページ: http://lmb.informatik.uni-freiburg.de/Publications/2016/MIFDB16/ A Large Dataset to Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow Estimation Nikolaus Mayer, Eddy Ilg, Philip Hausser, Philipp Fischer, Daniel Cremers, Alexey Dosovitskiy, Thomas Brox
  31. 31. 5. Scene Flow Datasets (1)先行研究 Flying Chairs Dataset (FlowNet [A.Dosovitskiy+, ICCV2015]) ・椅子が空を飛ぶデータセット ・奥行き方向には飛ばない ・オプティカルフロー推定用CNNの学習に使える
  32. 32. 5. Scene Flow Datasets (2)データの特徴 ③Driving (KITTIリスペクト) ②Monkaa (Sintelリスペクト) ①FlyingThings3D ・色んな物が空を飛ぶデータセット(椅子だけじゃない!) ・奥行き方向にも飛ぶ! ・シーンフロー推定用CNNの学習に使える!
  33. 33. 5. Scene Flow Datasets (3)手法 ①オプティカルフローを推定するFlowNetを学習 ②視差を推定するDispNetを2つ学習 ③ ①,②を統合したSceneFlowNetを学習 シーンフローの計算に 時刻t, t+1の視差の変化が必要
  34. 34. 5. Scene Flow Datasets (4)視差評価結果 精度では劣るが1000倍高速 http://www.cvlibs.net/datasets/kitti/eval_scene_flow.php ?benchmark=stereo (2016/7/23時点) 特にForegroundの精度が良い
  35. 35. 5. Scene Flow Datasets (5)シーンフロー評価結果 オプティカルフロー・視差を別々に求めるより SceneFlowNetで統合して求める方が高精度 オプティカルフロー推定では、Flying Chairs Datasetには勝てなかったよ…
  36. 36. まとめ • Semantic Urban Scene Understanding に関する 5つの論文・データセットを紹介 • Semantic Segmentation用データを如何に集め、 如何に使うべきかは現時点で判断できず、更なる研究が必要 • Tracking, Scene Flow等、動きに関するデータは CGで代用できる可能性が高い どのようなデータで精度が上がり、それが何故なのか分析が必要
  37. 37. 補足:CVPR2016で目についた傾向 Segmentation関連が約65件、うちSemantic Segmentationが約30件 (タイトル・セッション名で検索) • Multi-scale対応 FCN等でreceptive fieldが固定サイズである問題の解決 • RNNによる画素走査 context情報を抽出 • Boundary, Optical Flowの併用 CRFの併用同様、境界付近の精度を向上 • 他のタスクへの転用 Semantic Segmentationの結果やCNNアーキテクチャを転用
  38. 38. 補足:CNNによるピクセルラベリング http://people.eecs.berkeley.edu/~jonlong/ より引用 ・似た構造のCNNで、Semantic Segmentation以外にも様々な応用が可能 ・複数のタスクが相補的な効果を持ち得る(例:SceneFlowNet) ・入力・出力の教師データの組み合わせによって機能が変わる データ次第で新しい問題を設定・解決できる可能性がある ラフスケッチの線画化 [Simo-Serra+, SIGGRAPH2016]

×