SlideShare a Scribd company logo
Semantic Segmentationについて
その2
2017年4月18日 皆川卓也
自己紹介
2
テクニカル・ソリューション・アーキテクト
皆川 卓也(みながわ たくや)
フリーエンジニア(ビジョン&ITラボ)
「コンピュータビジョン勉強会@関東」主催
博士(工学)
略歴:
1999-2003年
日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ
セールス、プロジェクトマネジメント、サポート等の業務に従事
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
2007-2010年
慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻
単位取得退学後、博士号取得(2014年)
2009年-現在
フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事
http://visitlab.jp
Semantic Segmentationサーベイ2
 この資料は以下のURLのサーベイの続きです。
 https://www.slideshare.net/takmin/semantic-segmentation
 主に以下の3点について調べました。
1. Cityscapes Benchmark上位のアルゴリズム
2. Instance-levelのSemantic Segmentation
3. Semantic Video Segmentation
予備知識
予備知識: Residual Networks
 ネットワークに「バイパス」を設けることで、階層を深くして
も学習が劣化しない仕組みを構築し、152層ものネット
ワークを構築
 ILSVRC2015 (画像認識のコンペティション)で1位を獲得
He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep Residual Learning for Image Recognition. IEEE Conference on Computer
Vision and Pattern Recognition (CVPR)
予備知識: Dilated Network
 CNNではPooling層において、出力のサイズが入力サイ
ズよりも小さくなってしまい、予測の解像度が低下する
 Pooling層の代わりに、マルチスケールの「Dilated
Convolution」を使用することで、解像度を保ったままコン
テクストの情報を学習する。
Yu, F., & Koltun, V. (2016). Multi-Scale Context Aggregation by Dilated Convolutions. International Conference on Machine
Learning (ICML)
画像は[http://sergeiturukin.com/2017/03/02/wavenet.html]より転載
予備知識:R-CNN (Region with CNN feature)
7
 畳み込みニューラルネットワーク(CNN)は計算量が高いので、
探索窓(Sliding Window)による検出は更に計算量高い
 Selective Searchという手法を用いて物体候補領域を検出し、
候補領域上のみ処理することで計算量削減
Girshick, R., Donahue, J., Darrell, T., & Malik, J. (2014). Rich feature hierarchies for accurate object detection and semantic
segmentation. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
予備知識:Fast R-CNN
8
 R-CNNでは物体候補領域を1つ1つCNNで判別していたため
遅い(VGGを使用した場合、GPU込みで1枚47秒)
 画像全体にCNNをかけて特徴マップを生成し、最後のプーリン
グ層を物体候補領域(ROI)に合わせて切り出す
 R-CNNを検出時約213倍高速化
Girshick, R. (2015). Fast R-CNN. International Conference on Computer Vision (ICCV)
予備知識:Faster R-CNN
9
 R-CNNおよびFast R-CNNではSelective Searchを用いて物体候
補領域を事前に求めておく必要。
 Fast R-CNNのSelective Search部分をfeature map上で行うこと
で、余計な処理を省き、高精度化/高速化(1枚当たり約
200msec)。
→ Region Proposal Network (RPN)
この上(特徴マップ)で物体候補領域検出を行う
Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster R-CNN: Towards Real-Time Object Detection with Region Proposal
Networks. Advances in Neural Information Processing Systems (NIPS).
Cityscapes Benchmark
上位アルゴリズムについて
目的
 本資料はSemantic Segmentationに関するデータセットお
よびCompetitionであるCityscapes Benchmarksについて、
その上位のアルゴリズムについて解説するものです。
 ここで、解説されるアルゴリズムは論文が公開されてい
るものに限ります。
 Cityscapes Benchmarksの結果は以下のサイトから閲覧す
ることができます。
https://www.cityscapes-dataset.com/benchmarks/
Cityscapes Benchmarks
 Cityscapesデータセットを用いて認識した結果をサーバーへ
アップロードすることで、それぞれの指標における順位を計算
してくれます。
評価指標
 Pixel Level
下記IoUおよびiIoUをクラス/カテゴリ(グループ)ごとに評価しま
す。
IoU =
𝑇𝑃
𝑇𝑃+𝐹𝑃+𝐹𝑁
TP, FP, FN: 画素ごとのTrue Positive, False Positive, False Negative
iIoU =
𝑖𝑇𝑃
𝑖𝑇𝑃+𝑖𝐹𝑃+𝑖𝐹𝑁
iTP, iFP, iFN: クラスの平均サイズで重みづけしたTP, FP, FN
*2
評価指標
 Instance Level
8種類のクラス(person, rider, car, truck, bus, train, motorcycle,
bicycle)に対して、検出およびPixelラベリングの精度を評価しま
す。
Average Precision
検出ラベルDとGround TruthラベルGのオーバーラップが閾値以上の
時に正解とみなします。

𝐷 ∩ 𝐺
𝐷 ∪ 𝐺
> 𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑
閾値を0.5から0.05刻みで0.95まで動かし、Recall-Precisionカーブを作
成します。
Recall-Precisionカーブの面積をAverage Precisionとします。
評価指標
 Instance Level
mean Average Precision (AP)
全クラスのAverage Precisionの平均
AP 50%
オーバーラップ50%以上
AP 100m
100m以内のオブジェクトに対して
AP 50m
50m以内のオブジェクトに対して
Pixel Level上位の手法 (2017/03/11現在)
1. Z. Wu, C. Shen, A. Hengel, “Wider or Deeper: Revisiting the ResNet
Model for Visual Recognition”, arXiv:1611.10080, 2016
2. H. Zhao, J. Shi, X. Qi, X. Wang, J. Jia, “Pyramid Scene Parsing
Network”, arXiv:1612.01105, 2016
3. P. Wang, P. Chen, Y. Yuan, D. Liu, Z. Huang, X. Hou, G. Cottrel,
“Understanding Convolution for Semantic Segmentation”,
arXiv:1702.08502, 2017
Method IoU class iIoU class IoU category iIoU category
ResNet-38 *1 80.6 (1st) 57.8 (3rd) 91.0 (1st) 79.1 (2nd)
Model A2, 2 conv *1
78.4 (6th) 59.1 (1st) 90.9 (1st) 81.1 (1st)
PSPNet *2 80.2 (2nd) 58.1 (2nd) 90.6 (3rd) 78.2 (3rd)
TuSimple_Coarse *3 80.1 (3rd) 56.9 (4th) 90.7 (3rd) 77.8 (5th)
Revisiting RezNet
 Residual Networksの層の数を減らし、代わりに特徴マップ数
(チャネル数)を増やすことで、構造を最適化
ResNet-38とModel A2はともに、カスタマイズRezNetの一種(詳細は
論文にも記述無し)
 Semantic Segmentationタスク向けにFully Convolutional
Networksに類似した構造へカスタマイズ
ソースコード: https://github.com/itijyou/ademxapp (MXNet)
PSPNet
 ResNet+Dlilated Netで作成したFeature Mapに対し、異な
るサイズのPoolingをかけてUp-samplingする
 大きなPoolingサイズのものにコンテクストの情報が含ま
れている
ソースコード: https://github.com/hszhao/PSPNet (Caffe + DeepLab v2)
TuSimple_Coarse
訓練済みモデル(MXNet):https://goo.gl/DQMeun
 ResNet+Dilated NetのDilated Netの部分をHybrid Dilated
Convolution (HDC)という手法に置き換え、特徴抽出した結果を
Dense Upsampling Convolution (DUC) という手法でアップサンプリン
グ
HDC: Dilated Netのrate(サンプリング間隔)を階層ごとに変えることで、
画素の「抜け」の問題を低減
DUC: 特徴マップを、 L個(ラベル数)の原画像サイズの出力へ変換する畳
み込み層
Instance Level上位の手法 (2017/03/11現在)
1. A. Arnab, & P. Torr, “Pixelwise Instance Segmentation
with a Dynamically Instantiated Network”, IEEE
Conference on Computer Vision and Pattern Recognition
(CVPR), 2017.
Method AP AP 50% AP 100m AP 50m
Pixelwise Instance
Segmentation with a
Dynamically
Instantiated Network
*1
20.0 (1st) 38.8 (1st) 32.6 (1st) 37.6 (1st)
Dynamically Instantiated Network
 物体検出の結果とSemantic Segmentationの結果をCRFで
統合することで、Instanceを推定
 Semantic SegmentationのネットワークとInstanceを求める
ネットワークをend-to-endで学習可能(RNN as CRFを使
用)
Instance-level Semantic
Segmentation
Instance Level Semantic Segmentation
 Object Detection
画像の中から各カテゴリの1つ1つの物体位置を求める
 Semantic Segmentation
各画素がどのカテゴリに属するかを求める
同じカテゴリの物体が隣接した場合、境界がわからない
 Instance Segmentation
各画素が1つ1つの物体のどこに属するかを求める
Arnab, A., & Torr, P. H. S. (2017). Pixelwise Instance Segmentation with a Dynamically Instantiated Network. IEEE Conference on
Computer Vision and Pattern Recognition (CVPR).
アプローチによる分類
 Object Detectionを用いてBounding Boxを算出し、その中
および周辺画素の前景/背景を算出
最もメジャーなアプローチ
 Object Detectionを物体候補領域推定(Region Proposal)
を用いて行い、その領域情報を利用
 Object Detectionを用いない方法
Segmentationベース
Patchベース
紹介する論文
 Object Detectionを用いない方法の例
Zhang, Z., Fidler, S., & Urtasun, R. (2016). Instance-Level
Segmentation with Deep Densely Connected MRFs. IEEE
Conference on Computer Vision and Pattern Recognition (CVPR)
Segmentationベース
Liu, S., Qi, X., Shi, J., Zhang, H., & Jia, J. (2016). Multi-scale Patch
Aggregation (MPA) for Simultaneous Detection and
Segmentation. IEEE Conference on Computer Vision and Pattern
Recognition (CVPR)
Patchベース
Deep Densely Connected MRFs
 3種類のサイズのパッチからCNNで各画素のインスタンスのラ
ベルを推定
 平滑化項に近くの画素は同じインスタンス、離れた画素は異
なるインスタンスの可能性が大きいという条件を入れて、MRF
を用いて最終的なラベルを決定
ソースコード(C++, Caffe): https://bitbucket.org/zhangziyu1991/cnn-densecrf-kitti-public
Multi-scale Patch Aggregation
 特徴マップからマルチスケールのパッチを切り出し、それ
ぞれのパッチに対してSegmentationとClassificationを同
時に行い、その後パッチの結果を統合
紹介する論文
 Object Detectionを物体候補領域推定(Region Proposal)
を用いて行い、その領域情報を利用
Hariharan, B., Arbeláez, P., Girshick, R., & Malik, J. (2014).
Simultaneous Detection and Segmentation. European
Conference on Computer Vision (ECCV)
Simultaneous Detection and Segmentation
(SDS)
 物体検出とセグメンテーションを同時に行うようにR-CNNを改
良
 Bounding BoxとRegion上からそれぞれCNN特徴を抽出し、統
合して線形SVMで物体カテゴリを識別。
 各画素ブロックの前景/背景を判別する識別器(ロジスティック
回帰)を「カテゴリごとに」学習(Region Refinement)
ソースコード(Matlab+Caffe): https://github.com/bharath272/sds_eccv2014
紹介する論文
 Object Detectionを用いてBounding Boxを算出し、その中および周辺
画素の前景/背景を算出
Yang, Y., Hallman, S., Ramanan, D., & Fowlkes, C. C. (2012). Layered Object
Models for Image Segmentation. IEEE Transaction on Pattern Analysis and
Machine Intelligence (PAMI)
Dai, J., He, K., & Sun, J. (2016). Instance-aware Semantic Segmentation via
Multi-task Network Cascades. IEEE Conference on Computer Vision and
Pattern Recognition (CVPR)
Hariharan, B., Arbel, P., & Girshick, R. (2015). Hypercolumns for Object
Segmentation and Fine-grained Localization. IEEE Conference on Computer
Vision and Pattern Recognition (CVPR)
Li, K., Hariharan, B., Malik, J., Berkeley, U. C., & Berkeley, U. C. (2016).
Iterative Instance Segmentation. IEEE Conference on Computer Vision and
Pattern Recognition (CVPR)
Li, K., & Malik, J. (2016). Amodal Instance Segmentation. IEEE Europian
Conference on Computer Vision (ECCV)
He, K., Gkioxari, G., Dollar, P., & Girshick, R. (2017). Mask R-CNN.
arXiv:1703.06870
Layered object models
 物体検出(Deformable Part Model)の結果を基に、生成
確率モデルを用いて、各Super Pixelの前後関係(層構造)
を推定
Multi-task Network Cascades
 物体候補領域算出(RPN)、前景推定、カテゴリ識別を行
う3つのネットワークをカスケード型につないだ、end-to-
endでの学習が可能なネットワークを構築
ソースコード(Python+Caffe): https://github.com/daijifeng001/MNC
Hypercolumns
 CNNは上の層ほど識別能力が高い特徴が得られるが、空間
周波数が下がるので、各層の特徴マップを束ねる
(=Hypercolumns)ことで両方のメリットを取り入れて、Semantic
Segmentationを行う。
 物体検出で求めたBounding Box内の各画素のHypercolumns
を算出し、ロジスティック回帰で各グリッドのラベルを推定。
ソースコード (Python + Caffe):
https://github.com/bharath272/sds
Iterative Instance Segmentation (IIS)
 Semantic Segmentationを行うCNNを数珠つなぎにつなげ、
前のCNNの予測結果を次のCNNへの入力とすることで、
対象の形状についての事前分布を学習させる。
 各CNN(Hypercolumnsを改良)は入力画像+前のネット
ワークの予測ラベルを受け取り、予測ラベルを返す。
Amodal Instance Segmentation
 対象が見えている領域だけでなく、隠れている領域も推
定するという新しい問題設定を提案。
 Instance-level Semantic Segmentationの学習データに対
して、画像を合成して対象が隠れている学習データを新
たに生成し、IISで学習。
Mask R-CNN
 Faster R-CNNにセグメンテーション用のFully Convolutional
NetworkをBounding Box推定用のネットワークと平行に加える
だけ
 同じフレームワークで人の姿勢推定にも応用可能
 MS COCO 2016 Challenge Winner
Semantic Video
Segmentation
Semantic Video Segmentation
 動画の各フレームに対し、Semantic Segmentationを行う。
 その際、前後のフレームの情報などを利用することで、
精度や速度を向上させる
Tripathi, S., Belongie, S., Hwang, Y., & Nguyen, T. (2015). Semantic video segmentation: Exploring inference efficiency.
International SoC Design Conference (ISOCC) より画像転載
動画用データセット
 The Cambridge-driving Labeled Video Database(CamVid)
Dataset
概要
32クラスにラベル付けされた車載カメラからの動画データセット。
動画は30Hz、ラベルは1Hz
URL
http://mi.eng.cam.ac.uk/research/projects/VideoRec/CamVid/
ライセンス
特に記述無
例
Playing for Data
 Richer, S. R., Vineet, V., Roth, S., & Koltun, V. (2016). Playing for Data: Ground Truth
from Computer Games. European Conference on Computer Vision (ECCV)
市販のゲームに対し、グラフィックハードウェアにアクセスすることで、高速にセマ
ンティックラベルを取得
CamVidの1/3のデータ+ゲームから取得したデータを使用して学習させることで、
CamVid全てのデータを使って学習した場合よりも大幅に性能向上
 URL (コードあり)
https://download.visinf.tu-darmstadt.de/data/from_games/
アプローチによる分類
 動画から推定した対象の三次元構造に基づいてラベル
付け
 フレームごとのラベル付け結果と三次元推定結果を融合
 フレームごとのラベル付け結果を統合
 複数フレーム全体を同時にラベル付け
紹介する論文
 動画から推定した対象の三次元構造に基づいてラベル
付け
G. J. Brostow, J. Shotton, J. Fauqueur, and R. Cipolla.
Segmentation and recognition using structure from motion
point clouds. In ECCV, 2008
Segmentation using SfM
 Structure from Motionにより動画から三次元点群を計算
 各点の高さ、カメラの軌跡との最短距離、法線ベクトル、
再投影誤差等を特徴量として、Randomized Forestにより
ラベリング
紹介する論文
 フレームごとのラベル付け結果と三次元推定結果を融合
Kundu, A., Li, Y., Daellert, F., Li, F., & Rehg, J. M. (2014). Joint
Semantic Segmentation and 3D Reconstruction from Monocular
Video. European Conference on Computer Vision (ECCV)
Joint Semantic Segmentation and 3D
Reconstruction
 画像からのSemantic SegmentationとVisual SLAMによる
点群取得を個別に行い、それらを融合して3次元マップ
を作成
CRFを用いて各ボクセルのラベルを推定
紹介する論文
 フレームごとのラベル付け結果を統合
Scharwaechter, T., Enzweiler, M., Franke, U., & Roth, S. (2014).
Stixmantics: A Medium-Level Model for Real-Time Semantic
Scene Understanding. European Conference on Computer Vision
(ECCV)
Sevilla-Lara, L., Sun, D., Jampani, V., & Black, M. J. (2016).
Optical Flow with Semantic Segmentation and Localized Layers.
CVPR
Stixmantics
 ステレオ視(Semi Global Matching)により、カメラからの距
離に応じて棒状の領域(Stixel)に分割(上中)
 Stixel毎にSemanticラベルを付与(上右)
 特徴点の追跡結果(下右)を制約としてラベルを決定(下
中)
 リアルタイムでSemantic Segmentation可能
Optical Flow and Localized Layer
 DeepLab(CNN + CRF)でSemantic Segmentation
 Labelを車や人などの”Things”、道路や空などの”Planes”、
ビルなどの” Stuff”に分け、それぞれの分類に応じて
Optical Flowを改善。
 改善したOptical Flow用いて、さらにSegmentation結果を
改善
紹介する論文
 複数フレーム全体を同時にラベル付け
Liu, B., & He, X. (2015). Multiclass semantic video segmentation
with object-level active inference. IEEE Conference on Computer
Vision and Pattern Recognition (CVPR)
Kundu, A., Tech, G., Vineet, V., Labs, I., Koltun, V., & Labs, I.
(2016). Feature Space Optimization for Semantic Video
Segmentation. 2016 IEEE Conference on Computer Vision and
Pattern Recognition (CVPR)
Object-level Active Inference
 時空間方向に作成したSuper Voxelをノードとし、さらに物体検
出/追跡結果(object hypothesis)を取り込んだモデルを、CRFを
用いてSemantic Segmentation
 Active Inferenceを用いて、最適なobject hypothesisのサブセッ
トを選択することで計算を効率化
Future Space Optimization
 複数フレームをまとめたブロックを構築し、画素同士の距離空
間(特徴空間)を、画素の位置および値を元に構築
 ブロック内の特徴空間において、各画素のラベルをfully-
connected CRFで最適化
 複数のブロックに渡って結果を最適化
ソースコード(C++): https://bitbucket.org/infinitei/videoparsing

More Related Content

What's hot

画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
Yoshitaka Ushiku
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
Preferred Networks
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
Deep Learning JP
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
Deep Learning JP
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
 
音声認識と深層学習
音声認識と深層学習音声認識と深層学習
音声認識と深層学習
Preferred Networks
 
[DL輪読会]Disentangling by Factorising
[DL輪読会]Disentangling by Factorising[DL輪読会]Disentangling by Factorising
[DL輪読会]Disentangling by Factorising
Deep Learning JP
 
数式からみるWord2Vec
数式からみるWord2Vec数式からみるWord2Vec
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
Preferred Networks
 
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
Hirokatsu Kataoka
 
スペクトラルグラフ理論入門
スペクトラルグラフ理論入門スペクトラルグラフ理論入門
スペクトラルグラフ理論入門irrrrr
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
nlab_utokyo
 
主成分分析
主成分分析主成分分析
主成分分析
大貴 末廣
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
AtsukiYamaguchi1
 
2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)
Tatsuya Yokota
 
BERT入門
BERT入門BERT入門
BERT入門
Ken'ichi Matsui
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
Masahiro Suzuki
 
XAI (説明可能なAI) の必要性
XAI (説明可能なAI) の必要性XAI (説明可能なAI) の必要性
XAI (説明可能なAI) の必要性
西岡 賢一郎
 

What's hot (20)

画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
音声認識と深層学習
音声認識と深層学習音声認識と深層学習
音声認識と深層学習
 
[DL輪読会]Disentangling by Factorising
[DL輪読会]Disentangling by Factorising[DL輪読会]Disentangling by Factorising
[DL輪読会]Disentangling by Factorising
 
数式からみるWord2Vec
数式からみるWord2Vec数式からみるWord2Vec
数式からみるWord2Vec
 
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
 
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
 
スペクトラルグラフ理論入門
スペクトラルグラフ理論入門スペクトラルグラフ理論入門
スペクトラルグラフ理論入門
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
主成分分析
主成分分析主成分分析
主成分分析
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
 
2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)
 
BERT入門
BERT入門BERT入門
BERT入門
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
XAI (説明可能なAI) の必要性
XAI (説明可能なAI) の必要性XAI (説明可能なAI) の必要性
XAI (説明可能なAI) の必要性
 

Viewers also liked

これから始める人の為のディープラーニング基礎講座
これから始める人の為のディープラーニング基礎講座これから始める人の為のディープラーニング基礎講座
これから始める人の為のディープラーニング基礎講座
NVIDIA Japan
 
[Dl輪読会]dl hacks輪読
[Dl輪読会]dl hacks輪読[Dl輪読会]dl hacks輪読
[Dl輪読会]dl hacks輪読
Deep Learning JP
 
岩波データサイエンス_Vol.5_勉強会資料01
岩波データサイエンス_Vol.5_勉強会資料01岩波データサイエンス_Vol.5_勉強会資料01
岩波データサイエンス_Vol.5_勉強会資料01
goony0101
 
岩波データサイエンス_Vol.5_勉強会資料00
岩波データサイエンス_Vol.5_勉強会資料00岩波データサイエンス_Vol.5_勉強会資料00
岩波データサイエンス_Vol.5_勉強会資料00
goony0101
 
岩波データサイエンス_Vol.5_勉強会資料02
岩波データサイエンス_Vol.5_勉強会資料02岩波データサイエンス_Vol.5_勉強会資料02
岩波データサイエンス_Vol.5_勉強会資料02
goony0101
 
Rパッケージ“KFAS”を使った時系列データの解析方法
Rパッケージ“KFAS”を使った時系列データの解析方法Rパッケージ“KFAS”を使った時系列データの解析方法
Rパッケージ“KFAS”を使った時系列データの解析方法
Hiroki Itô
 
[unofficial] Pyramid Scene Parsing Network (CVPR 2017)
[unofficial] Pyramid Scene Parsing Network (CVPR 2017)[unofficial] Pyramid Scene Parsing Network (CVPR 2017)
[unofficial] Pyramid Scene Parsing Network (CVPR 2017)
Shunta Saito
 
20170806 Discriminative Optimization
20170806 Discriminative Optimization20170806 Discriminative Optimization
20170806 Discriminative Optimization
Takuya Minagawa
 
Cvpr2017事前読み会
Cvpr2017事前読み会Cvpr2017事前読み会
Cvpr2017事前読み会
Takuya Minagawa
 
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
Deep Learning JP
 
CVPR 2017 速報
CVPR 2017 速報CVPR 2017 速報
CVPR 2017 速報
cvpaper. challenge
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
Takuya Minagawa
 
Kaggle meetup #3 instacart 2nd place solution
Kaggle meetup #3 instacart 2nd place solutionKaggle meetup #3 instacart 2nd place solution
Kaggle meetup #3 instacart 2nd place solution
Kazuki Onodera
 
Deep LearningフレームワークChainerと最近の技術動向
Deep LearningフレームワークChainerと最近の技術動向Deep LearningフレームワークChainerと最近の技術動向
Deep LearningフレームワークChainerと最近の技術動向
Shunta Saito
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
hoxo_m
 

Viewers also liked (15)

これから始める人の為のディープラーニング基礎講座
これから始める人の為のディープラーニング基礎講座これから始める人の為のディープラーニング基礎講座
これから始める人の為のディープラーニング基礎講座
 
[Dl輪読会]dl hacks輪読
[Dl輪読会]dl hacks輪読[Dl輪読会]dl hacks輪読
[Dl輪読会]dl hacks輪読
 
岩波データサイエンス_Vol.5_勉強会資料01
岩波データサイエンス_Vol.5_勉強会資料01岩波データサイエンス_Vol.5_勉強会資料01
岩波データサイエンス_Vol.5_勉強会資料01
 
岩波データサイエンス_Vol.5_勉強会資料00
岩波データサイエンス_Vol.5_勉強会資料00岩波データサイエンス_Vol.5_勉強会資料00
岩波データサイエンス_Vol.5_勉強会資料00
 
岩波データサイエンス_Vol.5_勉強会資料02
岩波データサイエンス_Vol.5_勉強会資料02岩波データサイエンス_Vol.5_勉強会資料02
岩波データサイエンス_Vol.5_勉強会資料02
 
Rパッケージ“KFAS”を使った時系列データの解析方法
Rパッケージ“KFAS”を使った時系列データの解析方法Rパッケージ“KFAS”を使った時系列データの解析方法
Rパッケージ“KFAS”を使った時系列データの解析方法
 
[unofficial] Pyramid Scene Parsing Network (CVPR 2017)
[unofficial] Pyramid Scene Parsing Network (CVPR 2017)[unofficial] Pyramid Scene Parsing Network (CVPR 2017)
[unofficial] Pyramid Scene Parsing Network (CVPR 2017)
 
20170806 Discriminative Optimization
20170806 Discriminative Optimization20170806 Discriminative Optimization
20170806 Discriminative Optimization
 
Cvpr2017事前読み会
Cvpr2017事前読み会Cvpr2017事前読み会
Cvpr2017事前読み会
 
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
 
CVPR 2017 速報
CVPR 2017 速報CVPR 2017 速報
CVPR 2017 速報
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
Kaggle meetup #3 instacart 2nd place solution
Kaggle meetup #3 instacart 2nd place solutionKaggle meetup #3 instacart 2nd place solution
Kaggle meetup #3 instacart 2nd place solution
 
Deep LearningフレームワークChainerと最近の技術動向
Deep LearningフレームワークChainerと最近の技術動向Deep LearningフレームワークChainerと最近の技術動向
Deep LearningフレームワークChainerと最近の技術動向
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
 

Similar to Semantic segmentation2

object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)
Takuya Minagawa
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: survey
Takuya Minagawa
 
20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey
Takuya Minagawa
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
Takuya Minagawa
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
Takuya Minagawa
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Takumi Ohkuma
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
Hirokatsu Kataoka
 
CVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNetCVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNet
Takuya Minagawa
 
20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading
Takuya Minagawa
 
Visual slam
Visual slamVisual slam
Visual slam
Takuya Minagawa
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTURE Project
 
深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開
Seiya Tokui
 
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusOfficial
 
2020 08 05_dl_DETR
2020 08 05_dl_DETR2020 08 05_dl_DETR
2020 08 05_dl_DETR
harmonylab
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
yohei okawa
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
Preferred Networks
 
20181130 lidar object detection survey
20181130 lidar object detection survey20181130 lidar object detection survey
20181130 lidar object detection survey
Takuya Minagawa
 
20150414seminar
20150414seminar20150414seminar
20150414seminar
nlab_utokyo
 
211104 Bioc Asia workshop
211104 Bioc Asia workshop211104 Bioc Asia workshop
211104 Bioc Asia workshop
Satoshi Kume
 

Similar to Semantic segmentation2 (20)

object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: survey
 
20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
CVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNetCVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNet
 
20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading
 
Visual slam
Visual slamVisual slam
Visual slam
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
 
深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開
 
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組み
 
2020 08 05_dl_DETR
2020 08 05_dl_DETR2020 08 05_dl_DETR
2020 08 05_dl_DETR
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
 
20181130 lidar object detection survey
20181130 lidar object detection survey20181130 lidar object detection survey
20181130 lidar object detection survey
 
20150414seminar
20150414seminar20150414seminar
20150414seminar
 
211104 Bioc Asia workshop
211104 Bioc Asia workshop211104 Bioc Asia workshop
211104 Bioc Asia workshop
 

More from Takuya Minagawa

Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureMachine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Takuya Minagawa
 
MobileNeRF
MobileNeRFMobileNeRF
MobileNeRF
Takuya Minagawa
 
点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ
Takuya Minagawa
 
Learning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal ProblemsLearning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal Problems
Takuya Minagawa
 
ConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdfConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdf
Takuya Minagawa
 
楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事
Takuya Minagawa
 
20210711 deepI2P
20210711 deepI2P20210711 deepI2P
20210711 deepI2P
Takuya Minagawa
 
20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)
Takuya Minagawa
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)
Takuya Minagawa
 
20200704 bsp net
20200704 bsp net20200704 bsp net
20200704 bsp net
Takuya Minagawa
 
20190825 vins mono
20190825 vins mono20190825 vins mono
20190825 vins mono
Takuya Minagawa
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation
Takuya Minagawa
 
20190307 visualslam summary
20190307 visualslam summary20190307 visualslam summary
20190307 visualslam summary
Takuya Minagawa
 
run Keras model on opencv
run Keras model on opencvrun Keras model on opencv
run Keras model on opencv
Takuya Minagawa
 
3DFeat-Net
3DFeat-Net3DFeat-Net
3DFeat-Net
Takuya Minagawa
 
20180424 orb slam
20180424 orb slam20180424 orb slam
20180424 orb slam
Takuya Minagawa
 
Curiosity driven exploration
Curiosity driven explorationCuriosity driven exploration
Curiosity driven exploration
Takuya Minagawa
 
「コンピュータビジョン勉強会@関東」紹介資料
「コンピュータビジョン勉強会@関東」紹介資料「コンピュータビジョン勉強会@関東」紹介資料
「コンピュータビジョン勉強会@関東」紹介資料
Takuya Minagawa
 
車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術
Takuya Minagawa
 

More from Takuya Minagawa (19)

Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureMachine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
 
MobileNeRF
MobileNeRFMobileNeRF
MobileNeRF
 
点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ
 
Learning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal ProblemsLearning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal Problems
 
ConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdfConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdf
 
楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事
 
20210711 deepI2P
20210711 deepI2P20210711 deepI2P
20210711 deepI2P
 
20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)
 
20200704 bsp net
20200704 bsp net20200704 bsp net
20200704 bsp net
 
20190825 vins mono
20190825 vins mono20190825 vins mono
20190825 vins mono
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation
 
20190307 visualslam summary
20190307 visualslam summary20190307 visualslam summary
20190307 visualslam summary
 
run Keras model on opencv
run Keras model on opencvrun Keras model on opencv
run Keras model on opencv
 
3DFeat-Net
3DFeat-Net3DFeat-Net
3DFeat-Net
 
20180424 orb slam
20180424 orb slam20180424 orb slam
20180424 orb slam
 
Curiosity driven exploration
Curiosity driven explorationCuriosity driven exploration
Curiosity driven exploration
 
「コンピュータビジョン勉強会@関東」紹介資料
「コンピュータビジョン勉強会@関東」紹介資料「コンピュータビジョン勉強会@関東」紹介資料
「コンピュータビジョン勉強会@関東」紹介資料
 
車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術
 

Recently uploaded

CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
Yuuitirou528 default
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
chiefujita1
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
0207sukipio
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
Fukuoka Institute of Technology
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
Toru Tamaki
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
Matsushita Laboratory
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance
 

Recently uploaded (14)

CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
 

Semantic segmentation2

  • 2. 自己紹介 2 テクニカル・ソリューション・アーキテクト 皆川 卓也(みながわ たくや) フリーエンジニア(ビジョン&ITラボ) 「コンピュータビジョン勉強会@関東」主催 博士(工学) 略歴: 1999-2003年 日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ セールス、プロジェクトマネジメント、サポート等の業務に従事 2004-2009年 コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事 2007-2010年 慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻 単位取得退学後、博士号取得(2014年) 2009年-現在 フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事 http://visitlab.jp
  • 3. Semantic Segmentationサーベイ2  この資料は以下のURLのサーベイの続きです。  https://www.slideshare.net/takmin/semantic-segmentation  主に以下の3点について調べました。 1. Cityscapes Benchmark上位のアルゴリズム 2. Instance-levelのSemantic Segmentation 3. Semantic Video Segmentation
  • 5. 予備知識: Residual Networks  ネットワークに「バイパス」を設けることで、階層を深くして も学習が劣化しない仕組みを構築し、152層ものネット ワークを構築  ILSVRC2015 (画像認識のコンペティション)で1位を獲得 He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep Residual Learning for Image Recognition. IEEE Conference on Computer Vision and Pattern Recognition (CVPR)
  • 6. 予備知識: Dilated Network  CNNではPooling層において、出力のサイズが入力サイ ズよりも小さくなってしまい、予測の解像度が低下する  Pooling層の代わりに、マルチスケールの「Dilated Convolution」を使用することで、解像度を保ったままコン テクストの情報を学習する。 Yu, F., & Koltun, V. (2016). Multi-Scale Context Aggregation by Dilated Convolutions. International Conference on Machine Learning (ICML) 画像は[http://sergeiturukin.com/2017/03/02/wavenet.html]より転載
  • 7. 予備知識:R-CNN (Region with CNN feature) 7  畳み込みニューラルネットワーク(CNN)は計算量が高いので、 探索窓(Sliding Window)による検出は更に計算量高い  Selective Searchという手法を用いて物体候補領域を検出し、 候補領域上のみ処理することで計算量削減 Girshick, R., Donahue, J., Darrell, T., & Malik, J. (2014). Rich feature hierarchies for accurate object detection and semantic segmentation. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
  • 8. 予備知識:Fast R-CNN 8  R-CNNでは物体候補領域を1つ1つCNNで判別していたため 遅い(VGGを使用した場合、GPU込みで1枚47秒)  画像全体にCNNをかけて特徴マップを生成し、最後のプーリン グ層を物体候補領域(ROI)に合わせて切り出す  R-CNNを検出時約213倍高速化 Girshick, R. (2015). Fast R-CNN. International Conference on Computer Vision (ICCV)
  • 9. 予備知識:Faster R-CNN 9  R-CNNおよびFast R-CNNではSelective Searchを用いて物体候 補領域を事前に求めておく必要。  Fast R-CNNのSelective Search部分をfeature map上で行うこと で、余計な処理を省き、高精度化/高速化(1枚当たり約 200msec)。 → Region Proposal Network (RPN) この上(特徴マップ)で物体候補領域検出を行う Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. Advances in Neural Information Processing Systems (NIPS).
  • 11. 目的  本資料はSemantic Segmentationに関するデータセットお よびCompetitionであるCityscapes Benchmarksについて、 その上位のアルゴリズムについて解説するものです。  ここで、解説されるアルゴリズムは論文が公開されてい るものに限ります。  Cityscapes Benchmarksの結果は以下のサイトから閲覧す ることができます。 https://www.cityscapes-dataset.com/benchmarks/
  • 13. 評価指標  Pixel Level 下記IoUおよびiIoUをクラス/カテゴリ(グループ)ごとに評価しま す。 IoU = 𝑇𝑃 𝑇𝑃+𝐹𝑃+𝐹𝑁 TP, FP, FN: 画素ごとのTrue Positive, False Positive, False Negative iIoU = 𝑖𝑇𝑃 𝑖𝑇𝑃+𝑖𝐹𝑃+𝑖𝐹𝑁 iTP, iFP, iFN: クラスの平均サイズで重みづけしたTP, FP, FN *2
  • 14. 評価指標  Instance Level 8種類のクラス(person, rider, car, truck, bus, train, motorcycle, bicycle)に対して、検出およびPixelラベリングの精度を評価しま す。 Average Precision 検出ラベルDとGround TruthラベルGのオーバーラップが閾値以上の 時に正解とみなします。  𝐷 ∩ 𝐺 𝐷 ∪ 𝐺 > 𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑 閾値を0.5から0.05刻みで0.95まで動かし、Recall-Precisionカーブを作 成します。 Recall-Precisionカーブの面積をAverage Precisionとします。
  • 15. 評価指標  Instance Level mean Average Precision (AP) 全クラスのAverage Precisionの平均 AP 50% オーバーラップ50%以上 AP 100m 100m以内のオブジェクトに対して AP 50m 50m以内のオブジェクトに対して
  • 16. Pixel Level上位の手法 (2017/03/11現在) 1. Z. Wu, C. Shen, A. Hengel, “Wider or Deeper: Revisiting the ResNet Model for Visual Recognition”, arXiv:1611.10080, 2016 2. H. Zhao, J. Shi, X. Qi, X. Wang, J. Jia, “Pyramid Scene Parsing Network”, arXiv:1612.01105, 2016 3. P. Wang, P. Chen, Y. Yuan, D. Liu, Z. Huang, X. Hou, G. Cottrel, “Understanding Convolution for Semantic Segmentation”, arXiv:1702.08502, 2017 Method IoU class iIoU class IoU category iIoU category ResNet-38 *1 80.6 (1st) 57.8 (3rd) 91.0 (1st) 79.1 (2nd) Model A2, 2 conv *1 78.4 (6th) 59.1 (1st) 90.9 (1st) 81.1 (1st) PSPNet *2 80.2 (2nd) 58.1 (2nd) 90.6 (3rd) 78.2 (3rd) TuSimple_Coarse *3 80.1 (3rd) 56.9 (4th) 90.7 (3rd) 77.8 (5th)
  • 17. Revisiting RezNet  Residual Networksの層の数を減らし、代わりに特徴マップ数 (チャネル数)を増やすことで、構造を最適化 ResNet-38とModel A2はともに、カスタマイズRezNetの一種(詳細は 論文にも記述無し)  Semantic Segmentationタスク向けにFully Convolutional Networksに類似した構造へカスタマイズ ソースコード: https://github.com/itijyou/ademxapp (MXNet)
  • 18. PSPNet  ResNet+Dlilated Netで作成したFeature Mapに対し、異な るサイズのPoolingをかけてUp-samplingする  大きなPoolingサイズのものにコンテクストの情報が含ま れている ソースコード: https://github.com/hszhao/PSPNet (Caffe + DeepLab v2)
  • 19. TuSimple_Coarse 訓練済みモデル(MXNet):https://goo.gl/DQMeun  ResNet+Dilated NetのDilated Netの部分をHybrid Dilated Convolution (HDC)という手法に置き換え、特徴抽出した結果を Dense Upsampling Convolution (DUC) という手法でアップサンプリン グ HDC: Dilated Netのrate(サンプリング間隔)を階層ごとに変えることで、 画素の「抜け」の問題を低減 DUC: 特徴マップを、 L個(ラベル数)の原画像サイズの出力へ変換する畳 み込み層
  • 20. Instance Level上位の手法 (2017/03/11現在) 1. A. Arnab, & P. Torr, “Pixelwise Instance Segmentation with a Dynamically Instantiated Network”, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017. Method AP AP 50% AP 100m AP 50m Pixelwise Instance Segmentation with a Dynamically Instantiated Network *1 20.0 (1st) 38.8 (1st) 32.6 (1st) 37.6 (1st)
  • 21. Dynamically Instantiated Network  物体検出の結果とSemantic Segmentationの結果をCRFで 統合することで、Instanceを推定  Semantic SegmentationのネットワークとInstanceを求める ネットワークをend-to-endで学習可能(RNN as CRFを使 用)
  • 23. Instance Level Semantic Segmentation  Object Detection 画像の中から各カテゴリの1つ1つの物体位置を求める  Semantic Segmentation 各画素がどのカテゴリに属するかを求める 同じカテゴリの物体が隣接した場合、境界がわからない  Instance Segmentation 各画素が1つ1つの物体のどこに属するかを求める Arnab, A., & Torr, P. H. S. (2017). Pixelwise Instance Segmentation with a Dynamically Instantiated Network. IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
  • 24. アプローチによる分類  Object Detectionを用いてBounding Boxを算出し、その中 および周辺画素の前景/背景を算出 最もメジャーなアプローチ  Object Detectionを物体候補領域推定(Region Proposal) を用いて行い、その領域情報を利用  Object Detectionを用いない方法 Segmentationベース Patchベース
  • 25. 紹介する論文  Object Detectionを用いない方法の例 Zhang, Z., Fidler, S., & Urtasun, R. (2016). Instance-Level Segmentation with Deep Densely Connected MRFs. IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Segmentationベース Liu, S., Qi, X., Shi, J., Zhang, H., & Jia, J. (2016). Multi-scale Patch Aggregation (MPA) for Simultaneous Detection and Segmentation. IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Patchベース
  • 26. Deep Densely Connected MRFs  3種類のサイズのパッチからCNNで各画素のインスタンスのラ ベルを推定  平滑化項に近くの画素は同じインスタンス、離れた画素は異 なるインスタンスの可能性が大きいという条件を入れて、MRF を用いて最終的なラベルを決定 ソースコード(C++, Caffe): https://bitbucket.org/zhangziyu1991/cnn-densecrf-kitti-public
  • 27. Multi-scale Patch Aggregation  特徴マップからマルチスケールのパッチを切り出し、それ ぞれのパッチに対してSegmentationとClassificationを同 時に行い、その後パッチの結果を統合
  • 28. 紹介する論文  Object Detectionを物体候補領域推定(Region Proposal) を用いて行い、その領域情報を利用 Hariharan, B., Arbeláez, P., Girshick, R., & Malik, J. (2014). Simultaneous Detection and Segmentation. European Conference on Computer Vision (ECCV)
  • 29. Simultaneous Detection and Segmentation (SDS)  物体検出とセグメンテーションを同時に行うようにR-CNNを改 良  Bounding BoxとRegion上からそれぞれCNN特徴を抽出し、統 合して線形SVMで物体カテゴリを識別。  各画素ブロックの前景/背景を判別する識別器(ロジスティック 回帰)を「カテゴリごとに」学習(Region Refinement) ソースコード(Matlab+Caffe): https://github.com/bharath272/sds_eccv2014
  • 30. 紹介する論文  Object Detectionを用いてBounding Boxを算出し、その中および周辺 画素の前景/背景を算出 Yang, Y., Hallman, S., Ramanan, D., & Fowlkes, C. C. (2012). Layered Object Models for Image Segmentation. IEEE Transaction on Pattern Analysis and Machine Intelligence (PAMI) Dai, J., He, K., & Sun, J. (2016). Instance-aware Semantic Segmentation via Multi-task Network Cascades. IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Hariharan, B., Arbel, P., & Girshick, R. (2015). Hypercolumns for Object Segmentation and Fine-grained Localization. IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Li, K., Hariharan, B., Malik, J., Berkeley, U. C., & Berkeley, U. C. (2016). Iterative Instance Segmentation. IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Li, K., & Malik, J. (2016). Amodal Instance Segmentation. IEEE Europian Conference on Computer Vision (ECCV) He, K., Gkioxari, G., Dollar, P., & Girshick, R. (2017). Mask R-CNN. arXiv:1703.06870
  • 31. Layered object models  物体検出(Deformable Part Model)の結果を基に、生成 確率モデルを用いて、各Super Pixelの前後関係(層構造) を推定
  • 32. Multi-task Network Cascades  物体候補領域算出(RPN)、前景推定、カテゴリ識別を行 う3つのネットワークをカスケード型につないだ、end-to- endでの学習が可能なネットワークを構築 ソースコード(Python+Caffe): https://github.com/daijifeng001/MNC
  • 34. Iterative Instance Segmentation (IIS)  Semantic Segmentationを行うCNNを数珠つなぎにつなげ、 前のCNNの予測結果を次のCNNへの入力とすることで、 対象の形状についての事前分布を学習させる。  各CNN(Hypercolumnsを改良)は入力画像+前のネット ワークの予測ラベルを受け取り、予測ラベルを返す。
  • 35. Amodal Instance Segmentation  対象が見えている領域だけでなく、隠れている領域も推 定するという新しい問題設定を提案。  Instance-level Semantic Segmentationの学習データに対 して、画像を合成して対象が隠れている学習データを新 たに生成し、IISで学習。
  • 36. Mask R-CNN  Faster R-CNNにセグメンテーション用のFully Convolutional NetworkをBounding Box推定用のネットワークと平行に加える だけ  同じフレームワークで人の姿勢推定にも応用可能  MS COCO 2016 Challenge Winner
  • 38. Semantic Video Segmentation  動画の各フレームに対し、Semantic Segmentationを行う。  その際、前後のフレームの情報などを利用することで、 精度や速度を向上させる Tripathi, S., Belongie, S., Hwang, Y., & Nguyen, T. (2015). Semantic video segmentation: Exploring inference efficiency. International SoC Design Conference (ISOCC) より画像転載
  • 39. 動画用データセット  The Cambridge-driving Labeled Video Database(CamVid) Dataset 概要 32クラスにラベル付けされた車載カメラからの動画データセット。 動画は30Hz、ラベルは1Hz URL http://mi.eng.cam.ac.uk/research/projects/VideoRec/CamVid/ ライセンス 特に記述無 例
  • 40. Playing for Data  Richer, S. R., Vineet, V., Roth, S., & Koltun, V. (2016). Playing for Data: Ground Truth from Computer Games. European Conference on Computer Vision (ECCV) 市販のゲームに対し、グラフィックハードウェアにアクセスすることで、高速にセマ ンティックラベルを取得 CamVidの1/3のデータ+ゲームから取得したデータを使用して学習させることで、 CamVid全てのデータを使って学習した場合よりも大幅に性能向上  URL (コードあり) https://download.visinf.tu-darmstadt.de/data/from_games/
  • 42. 紹介する論文  動画から推定した対象の三次元構造に基づいてラベル 付け G. J. Brostow, J. Shotton, J. Fauqueur, and R. Cipolla. Segmentation and recognition using structure from motion point clouds. In ECCV, 2008
  • 43. Segmentation using SfM  Structure from Motionにより動画から三次元点群を計算  各点の高さ、カメラの軌跡との最短距離、法線ベクトル、 再投影誤差等を特徴量として、Randomized Forestにより ラベリング
  • 44. 紹介する論文  フレームごとのラベル付け結果と三次元推定結果を融合 Kundu, A., Li, Y., Daellert, F., Li, F., & Rehg, J. M. (2014). Joint Semantic Segmentation and 3D Reconstruction from Monocular Video. European Conference on Computer Vision (ECCV)
  • 45. Joint Semantic Segmentation and 3D Reconstruction  画像からのSemantic SegmentationとVisual SLAMによる 点群取得を個別に行い、それらを融合して3次元マップ を作成 CRFを用いて各ボクセルのラベルを推定
  • 46. 紹介する論文  フレームごとのラベル付け結果を統合 Scharwaechter, T., Enzweiler, M., Franke, U., & Roth, S. (2014). Stixmantics: A Medium-Level Model for Real-Time Semantic Scene Understanding. European Conference on Computer Vision (ECCV) Sevilla-Lara, L., Sun, D., Jampani, V., & Black, M. J. (2016). Optical Flow with Semantic Segmentation and Localized Layers. CVPR
  • 47. Stixmantics  ステレオ視(Semi Global Matching)により、カメラからの距 離に応じて棒状の領域(Stixel)に分割(上中)  Stixel毎にSemanticラベルを付与(上右)  特徴点の追跡結果(下右)を制約としてラベルを決定(下 中)  リアルタイムでSemantic Segmentation可能
  • 48. Optical Flow and Localized Layer  DeepLab(CNN + CRF)でSemantic Segmentation  Labelを車や人などの”Things”、道路や空などの”Planes”、 ビルなどの” Stuff”に分け、それぞれの分類に応じて Optical Flowを改善。  改善したOptical Flow用いて、さらにSegmentation結果を 改善
  • 49. 紹介する論文  複数フレーム全体を同時にラベル付け Liu, B., & He, X. (2015). Multiclass semantic video segmentation with object-level active inference. IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Kundu, A., Tech, G., Vineet, V., Labs, I., Koltun, V., & Labs, I. (2016). Feature Space Optimization for Semantic Video Segmentation. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)
  • 50. Object-level Active Inference  時空間方向に作成したSuper Voxelをノードとし、さらに物体検 出/追跡結果(object hypothesis)を取り込んだモデルを、CRFを 用いてSemantic Segmentation  Active Inferenceを用いて、最適なobject hypothesisのサブセッ トを選択することで計算を効率化
  • 51. Future Space Optimization  複数フレームをまとめたブロックを構築し、画素同士の距離空 間(特徴空間)を、画素の位置および値を元に構築  ブロック内の特徴空間において、各画素のラベルをfully- connected CRFで最適化  複数のブロックに渡って結果を最適化 ソースコード(C++): https://bitbucket.org/infinitei/videoparsing