SlideShare a Scribd company logo
1 of 35
Download to read offline
Image Segmentation
Using Deep Learning:
A Survey
Shervin Minaee, Yuri Boykov, Fatih Porikli, Antonio Plaza,
Nasser Kehtarnavaz, and Demetri Terzopoulos
IEEE Transactions on Multimedia, 2021
,
2022/06/14
Image Segmentation
n
•
•
•
n
•
•
n パノプティックセグメンテーション
• オブジェクト単位で
全画素にラベルをつける
n
• 100
• 10
n
•
•
n2D 2.5D 3D
• 2.5D RGB+
nRNN LSTM [Hochreiter+, Neural Computation, 1997]
•
nCNN [LeCun+ ,Proc. of IEEE, 2009]
• 深層学習において最も成功したアーキテクチャの1つ
nGAN [Goodfellow+, NeurIPS2014]
•
nエンコーダデコーダ [Badrinarayanan+, TPAMI2017]
• 2段階のネットワークを介して学習
1. FCN
2.
3.
4.
5. R-CNN
6.
7. RNN
8.
9.
10. CNN
1. FCN
FCN
nFully Convolutional Networks (FCN) [Long+, CVPR2015]
•
• CNNの連結層を畳み込み層に置き換え
•
FCN
model was tested on PASCAL VOC, NYUDv2, and SIFT F
and achieved state-of-the-art segmentation performance
Fig. 8. Skip connections combine coarse, high-level information and
low-level information. From [31].
This work is considered a milestone in image segme
tion, demonstrating that deep networks can be trained
semantic segmentation in an end-to-end manner on varia
sized images. However, despite its popularity and effect
FCN
n
•
•
nFCN
•
• 3D
nParseNet [Liu+, ICLR2016]
•
•
FCN ParseNet
2.
nConvolutional Random fields CRF [Zheng+, ICCV2015]
•
•
nCNN CRF
•
• CNN
CNN
Bi-linear Interpolation
CRF Refine
CNN+CRF [Chen+, CVPR2014]
3.
エンコーダデコーダモデル
nエンコーダ
• 入力を潜在空間表現に圧縮
nデコーダ
• 潜在空間表現から出力を予測
nVGG16ベースモデル [Noh+ ,CVPR2015]
・エンコーダ
・畳み込み層を用いる
・入力は特徴ベクトル
•
•
•
VGG16
nSegNet [Badrinarayanan+, CVPR2016]
• VGG16
•
•
nU-net [Ronneberger+, MICCAI2015]
•
•
•
SegNet
U-net
4.
nPyramid Scene Parsing Network (PSPN) [Zhao+, CVPR2017]
•
• ResNet
•
• 4
•
5. R-CNN
R-CNN
n R-CNN [Girshick+, CVPR2014]
• オブジェクトらしき領域を抽出
• それぞれの領域に対して特徴を抽出
• 学習と予測に時間がかかる
nFaster R-CNN [Ren+, CVPR2015]
• 領域提案ネットワーク(RPN)を使用
• bboxを候補を提案
• bbox座標とオブジェクトのクラスを推論
• インスタンス分割問題などのタスクに対応
Faster R-CNN architecture
R-CNN
nMask R-CNN [He+, CVPR2017]
• 3
1. bbox
2.
3.
• 3
nMaskLab [Chen+, CVPR2017]
• 3
1.
2.
3.
• /
Mask R-CNN MaskLab
6.
n
•
•
nDeepLab [Chen+, ECCV2018]
•
• conv
<latexit sha1_base64="G4TIL2lcMHRtACv4OVqQ+V9ieHA=">AAACjHicSyrIySwuMTC4ycjEzMLKxs7BycXNw8vHLyAoFFacX1qUnBqanJ+TXxSRlFicmpOZlxpaklmSkxpRUJSamJuUkxqelO0Mkg8vSy0qzszPCympLEiNzU1Mz8tMy0xOLAEKxQuoV8ZXZ9Yq2CrEFJfmxldn2xrWxlV711bEV0dnahdlx9aWA1lAKl5A2UDPAAwUMBmGUIYyAxQE5AssZ4hhSGHIZ0hmKGXIZUhlyGMoAbJzGBIZioEwmsGQwYChACgWy1ANFCsCsjLB8qkMtQxcQL2lQFWpQBWJQNFsIJkO5EVDRfOAfJCZxWDdyUBbcoC4CKhTgUHV4KrBSoPPBicMVhu8NPiD06xqsBkgt1QC6SSI3tSCeP4uieDvBHXlAukShgyELrxuLmFIY7AAuzUT6PYCsAjIF8kQ/WVV0z8HWwWpVqsZLDJ4DXT/QoObBoeBPsgr+5K8NDA1aDYDFzACDNGDG5MRZqRnaKZnEmii7OAEjQoOBmkGJQYNYHibMzgweDAEMIQC7e1l2Mywh2EvEx+TCZM1ky1EKRMjVI8wAwpgcgMAWdWZWA==</latexit>
yi =
K
X
k=1
x[i+rk]w[k]
r
DeepLabv3+
3×3 5×5
r = 2
7. RNN
RNN
nRNN [Hochreiter+, Neural Computation, 1997]
• /
•
nCNN LSTM [Hu+, CVPR2016]
• CNN
• LSTM
“ woman sitting on the right bench”
CNN+LSTM
RNN
8.
n重みつけ学習の注意機構を提案 [Chieh+, CVPR2016]
• マルチスケール特徴を柔らかく重み付け
• マルチスケール画像と注意モデルで共同学習
1.0
0.5
9.
n
•
•
nGAN [Luc+, CVPR2016]
•
•
•
GAN
10. CNN
ACM CNN
n ACM [Kass+ ,IJCV1988]
•
•
nACM
• [Chen+, CVPR2019]
nACM FCN
ACM
n2D
• PASCAL Visual Object Classes
[Everingham+, IJCV2015]
• PASCAL Context [Mottaghi+, CVPR2014]
• COCO [Lin+, ECCV2014]
• Cityscapes [Cordts+, CVPR2016]
• ADE20K dataset [Zhou+, CVPR2017]
• SiftFlow [Liu+, CVPR2019]
• Stanford background [Gould+, ICCV2009]
• BSD [Martin+, ICCV2001]
• Youtube-Objects [Prest+, CVPR2012]
• KITTI [Geiger+, IJRR2013]
n2.5D
• NYU-D V2 [Silberman+, ECCV2012]
• SUN-3D [Xiao+, ICCV2013]
• SUN RGB-D [Song+, CVPR2015]
• UW RGB-D Object [Lai+, ICRA2011]
n3D
• Stanford 2D-3D [Armeni+, arXiv2017]
• ShapeNet Core [Chang+, arXiv2015]
• Sydney Urban Object [Deuge+, MDPI2013]
nPixel accuracy (PA)
•
nMean Pixel Accuracy (MPA)
•
nIntersection over Union (IoU)
• A B
n Dice coefficient (Dice)
• 2
nPrecision Recall F1score
<latexit sha1_base64="B6F1b1wFp0Ow2XTJgUnkuUVhgh0=">AAACpnichVFNSxtRFD2OtrXpR9K6KXQzNKS4CjciVoRA1I1QkPiRRDDpdGZ80ZfMFzOTgA75A/4BF121IFL8GW7cuLTiTyhdWnDjojczAyWVtneY98497577znvP8CwZhETXY8r4xIOHjyYfZ548ffY8m3vxsh64Pd8UNdO1XH/L0ANhSUfUQhlaYsvzhW4blmgY3eXheqMv/EC6zma474mWre86si1NPWRKyy1WF9Wy2mz7uhk1g56tRU6ZBh/eq54Wyc5gkJIyIZOkM1Kh5fJUpDjU+6CUgjzSqLq5EzSxAxcmerAh4CBkbEFHwN82SiB4zLUQMeczkvG6wAAZ1va4SnCFzmyXx13OtlPW4XzYM4jVJu9i8e+zUkWBLukr3dA5ndJ3uvtrryjuMfSyz7ORaIWnZQ9fbdz+V2XzHGLvt+qfnkO0MR97lezdi5nhKcxE3z84utlYWC9Eb+kL/WD/n+mazvgETv+nebwm1j8hww9Q+vO674P6TLE0V5xdm81XltKnmMRrvME03/c7VLCCKmq87wku8A1XyrSyqtSURlKqjKWaKYyE8vEXFS6jYA==</latexit>
PA =
PK
n=0 pij
PK
i=0
PK
j=0 pij
<latexit sha1_base64="+2ri+INny+YT/97H3RZ1UP7J4EY=">AAACpnichVFNS9xQFD1GW3Vs61g3gpvgYBEKw41IlYKgdSOIMmrHERybJvGNfZovksyADfkD/gEXrhRExJ/hxo1LFX+CuLTQTRe9kwRKK21vyHvnnXPPffe9Z/q2DCOiuw6ls+vZ8+6e3kLfi5ev+osDr9dCrxlYomp5thesm0YobOmKaiQjW6z7gTAc0xY1c3eurddaIgil536M9nyx6RjbrmxIy4iY0ouzi5VZdVqtNwLDirUkXnirJfWw6eixO03Jp4VM8PVY7iRJnCk7qaLmpF4sUZnSUJ8CLQcl5FHxiqeoYwseLDThQMBFxNiGgZC/DWgg+MxtImYuYCRTXSBBgb1NzhKcYTC7y+M2rzZy1uV1u2aYui3exeY/YKeKUbqmM3qkSzqne/rx11pxWqPdyx7PZuYVvt6/P7T6/b8uh+cIX365/tlzhAam0l4l9+6nTPsUVuZvfT14XH2/Mhq/oWN64P6P6I4u+ARu65t1sixWDlHgB9D+vO6nYG28rL0rTyxPlGY+5E/Rg2GMYIzvexIzmEcFVd73FFe4wa0ypiwpVaWWpSoduWcQv4Xy+SeYSaOm</latexit>
MPA =
1
K + 1
K
X
n=0
pij
PK
j=0 pij
<latexit sha1_base64="L1qV22xzKXKIcYKMqVagyzFYZ+E=">AAACiHichVFNLwNBGH66vuuruEhcNhri1LwV8ZVIqAs3WkWiIrtjWhvb3c3utgnVH8AfcHAiEREHV84u/oCDnyCOJC4O3m43EQTvZGaeeeZ93nlmRndMw/OJHiNKQ2NTc0trW7S9o7OrO9bTu+rZJVfIrLBN213XNU+ahiWzvuGbct1xpVbUTbmm787X9tfK0vUM21rx9xy5WdQKlpE3hOYztRWLL9pZdUbN5V1NVA7m1JzQHDV1UK3jUoA5ixIUhPoTJEMQRxhLduwCOWzDhkAJRUhY8Bmb0OBx20ASBIe5TVSYcxkZwb5EFVHWljhLcobG7C6PBV5thKzF61pNL1ALPsXk7rJSxRA90CW90D1d0RO9/1qrEtSoednjWa9rpbPVfdSfeftXVeTZx86n6k/PPvKYDLwa7N0JmNotRF1f3j9+yUynhyrDdEbP7P+UHumOb2CVX8X5skyfIMofkPz+3D/B6mgiOZ4YWx6Lz6bCr2jFAAYxwu89gVksYAlZPvcQ17jBrRJVSJlQpuqpSiTU9OFLKKkPZuuWKw==</latexit>
IoU =
|A  B|
|A [ B|
<latexit sha1_base64="K9yQUUgVvDPv15yU+LH9i9E/bVU=">AAACh3ichVHLSsNAFD3Gd31V3QhugkURhDqVUkUQrLpw6asqWCnJONXBNAlJWtDEvfgDLlwpiIjgVvdu/AEXfoK4VHDjwts0ICrqHWbmzJl77pyZ0W1Duh5jj3VKfUNjU3NLa6ytvaOzK97ds+paZYeLHLcMy1nXNVcY0hQ5T3qGWLcdoZV0Q6zpu7PV/bWKcFxpmSveni02S9q2KYuSax5RhfjAnORCnVLzRUfj/liQVfNcs9WZ4MAPssFIQKAQT7AkC0P9CVIRSCCKBSt+gTy2YIGjjBIETHiEDWhwqW0gBQabuE34xDmEZLgvcIAYacuUJShDI3aXxm1abUSsSetqTTdUczrFoO6QUsUge2CX7IXdsyv2xN5/reWHNape9mjWa1phF7qO+pbf/lWVaPaw86n607OHIiZCr5K82yFTvQWv6Sv7xy/Lk0uD/hA7Y8/k/5Q9sju6gVl55eeLYukEMfqA1Pfn/glWx5KpTDK9mE5Mz0Rf0YJ+DGCY3nsc05jHAnJ07iGucYNbpVUZVTLKRC1VqYs0vfgSSvYD54aV+g==</latexit>
Dice =
2|A  B|
|A| + |B|
PASCAL VOC
COCO
PASCAL VOC
FCN 2014
NAS-FPN 2020
COCO
PASCAL VOC
COCO
n
•
• 3D
n
•
• FCN8 100ms
n3D
•
•
n
• 100 10
n
•
n2D 2.5D 3D
•

More Related Content

What's hot

【DL輪読会】FactorVAE: A Probabilistic Dynamic Factor Model Based on Variational A...
【DL輪読会】FactorVAE: A Probabilistic Dynamic Factor Model Based on Variational A...【DL輪読会】FactorVAE: A Probabilistic Dynamic Factor Model Based on Variational A...
【DL輪読会】FactorVAE: A Probabilistic Dynamic Factor Model Based on Variational A...Deep Learning JP
 
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB ImagesDeep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 
強化学習その2
強化学習その2強化学習その2
強化学習その2nishio
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...Deep Learning JP
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent ImaginationDeep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII
 
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action DiffusionDeep Learning JP
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformercvpaper. challenge
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...Deep Learning JP
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選Yusuke Uchida
 
【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World ModelsDeep Learning JP
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門Takuji Tahara
 
【DL輪読会】Language Conditioned Imitation Learning over Unstructured Data
【DL輪読会】Language Conditioned Imitation Learning over Unstructured Data【DL輪読会】Language Conditioned Imitation Learning over Unstructured Data
【DL輪読会】Language Conditioned Imitation Learning over Unstructured DataDeep Learning JP
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? Deep Learning JP
 
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Hideki Tsunashima
 
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦Tatsuya Matsushima
 

What's hot (20)

【DL輪読会】FactorVAE: A Probabilistic Dynamic Factor Model Based on Variational A...
【DL輪読会】FactorVAE: A Probabilistic Dynamic Factor Model Based on Variational A...【DL輪読会】FactorVAE: A Probabilistic Dynamic Factor Model Based on Variational A...
【DL輪読会】FactorVAE: A Probabilistic Dynamic Factor Model Based on Variational A...
 
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
強化学習その2
強化学習その2強化学習その2
強化学習その2
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
 
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
 
【DL輪読会】Language Conditioned Imitation Learning over Unstructured Data
【DL輪読会】Language Conditioned Imitation Learning over Unstructured Data【DL輪読会】Language Conditioned Imitation Learning over Unstructured Data
【DL輪読会】Language Conditioned Imitation Learning over Unstructured Data
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
 
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
 

Similar to 文献紹介:Image Segmentation Using Deep Learning: A Survey

Kerasを用いた3次元検索エンジン@TFUG
Kerasを用いた3次元検索エンジン@TFUGKerasを用いた3次元検索エンジン@TFUG
Kerasを用いた3次元検索エンジン@TFUGOgushi Masaya
 
EuroPython 2017 外部向け報告会
EuroPython 2017 外部向け報告会EuroPython 2017 外部向け報告会
EuroPython 2017 外部向け報告会Ogushi Masaya
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation Takumi Ohkuma
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDeep Learning JP
 
Kantocv 2-1-calibration publish
Kantocv 2-1-calibration publishKantocv 2-1-calibration publish
Kantocv 2-1-calibration publishtomoaki0705
 
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition InferenceToru Tamaki
 
文献紹介:Token Shift Transformer for Video Classification
文献紹介:Token Shift Transformer for Video Classification文献紹介:Token Shift Transformer for Video Classification
文献紹介:Token Shift Transformer for Video ClassificationToru Tamaki
 
コンピュータビジョンで作る未来の栽培技術POL共催セミナー_20220527
コンピュータビジョンで作る未来の栽培技術POL共催セミナー_20220527コンピュータビジョンで作る未来の栽培技術POL共催セミナー_20220527
コンピュータビジョンで作る未来の栽培技術POL共催セミナー_20220527ssuser5ec200
 
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...Toru Tamaki
 
伝統的工芸品の世界販売戦略を支援するためのバーチャルショウケース~テクスチャ・ツール~
伝統的工芸品の世界販売戦略を支援するためのバーチャルショウケース~テクスチャ・ツール~伝統的工芸品の世界販売戦略を支援するためのバーチャルショウケース~テクスチャ・ツール~
伝統的工芸品の世界販売戦略を支援するためのバーチャルショウケース~テクスチャ・ツール~Shogo Muramatsu
 
Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?
Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?
Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?kazuki ide
 

Similar to 文献紹介:Image Segmentation Using Deep Learning: A Survey (11)

Kerasを用いた3次元検索エンジン@TFUG
Kerasを用いた3次元検索エンジン@TFUGKerasを用いた3次元検索エンジン@TFUG
Kerasを用いた3次元検索エンジン@TFUG
 
EuroPython 2017 外部向け報告会
EuroPython 2017 外部向け報告会EuroPython 2017 外部向け報告会
EuroPython 2017 外部向け報告会
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Kantocv 2-1-calibration publish
Kantocv 2-1-calibration publishKantocv 2-1-calibration publish
Kantocv 2-1-calibration publish
 
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
 
文献紹介:Token Shift Transformer for Video Classification
文献紹介:Token Shift Transformer for Video Classification文献紹介:Token Shift Transformer for Video Classification
文献紹介:Token Shift Transformer for Video Classification
 
コンピュータビジョンで作る未来の栽培技術POL共催セミナー_20220527
コンピュータビジョンで作る未来の栽培技術POL共催セミナー_20220527コンピュータビジョンで作る未来の栽培技術POL共催セミナー_20220527
コンピュータビジョンで作る未来の栽培技術POL共催セミナー_20220527
 
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...
 
伝統的工芸品の世界販売戦略を支援するためのバーチャルショウケース~テクスチャ・ツール~
伝統的工芸品の世界販売戦略を支援するためのバーチャルショウケース~テクスチャ・ツール~伝統的工芸品の世界販売戦略を支援するためのバーチャルショウケース~テクスチャ・ツール~
伝統的工芸品の世界販売戦略を支援するためのバーチャルショウケース~テクスチャ・ツール~
 
Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?
Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?
Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?
 

More from Toru Tamaki

論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...Toru Tamaki
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex ScenesToru Tamaki
 
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...Toru Tamaki
 
論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video SegmentationToru Tamaki
 
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
論文紹介:Real-Time Evaluation in Online Continual Learning: A New HopeToru Tamaki
 
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...Toru Tamaki
 
論文紹介:Multitask Vision-Language Prompt Tuning
論文紹介:Multitask Vision-Language Prompt Tuning論文紹介:Multitask Vision-Language Prompt Tuning
論文紹介:Multitask Vision-Language Prompt TuningToru Tamaki
 
論文紹介:MovieCLIP: Visual Scene Recognition in Movies
論文紹介:MovieCLIP: Visual Scene Recognition in Movies論文紹介:MovieCLIP: Visual Scene Recognition in Movies
論文紹介:MovieCLIP: Visual Scene Recognition in MoviesToru Tamaki
 
論文紹介:Discovering Universal Geometry in Embeddings with ICA
論文紹介:Discovering Universal Geometry in Embeddings with ICA論文紹介:Discovering Universal Geometry in Embeddings with ICA
論文紹介:Discovering Universal Geometry in Embeddings with ICAToru Tamaki
 
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
論文紹介:Efficient Video Action Detection with Token Dropout and Context RefinementToru Tamaki
 
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...Toru Tamaki
 
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...Toru Tamaki
 
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusionToru Tamaki
 
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous DrivingToru Tamaki
 
論文紹介:Spatio-Temporal Action Detection Under Large Motion
論文紹介:Spatio-Temporal Action Detection Under Large Motion論文紹介:Spatio-Temporal Action Detection Under Large Motion
論文紹介:Spatio-Temporal Action Detection Under Large MotionToru Tamaki
 
論文紹介:Vision Transformer Adapter for Dense Predictions
論文紹介:Vision Transformer Adapter for Dense Predictions論文紹介:Vision Transformer Adapter for Dense Predictions
論文紹介:Vision Transformer Adapter for Dense PredictionsToru Tamaki
 
動画像理解のための深層学習アプローチ Deep learning approaches to video understanding
動画像理解のための深層学習アプローチ Deep learning approaches to video understanding動画像理解のための深層学習アプローチ Deep learning approaches to video understanding
動画像理解のための深層学習アプローチ Deep learning approaches to video understandingToru Tamaki
 

More from Toru Tamaki (20)

論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
 
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
 
論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation
 
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
 
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
 
論文紹介:Multitask Vision-Language Prompt Tuning
論文紹介:Multitask Vision-Language Prompt Tuning論文紹介:Multitask Vision-Language Prompt Tuning
論文紹介:Multitask Vision-Language Prompt Tuning
 
論文紹介:MovieCLIP: Visual Scene Recognition in Movies
論文紹介:MovieCLIP: Visual Scene Recognition in Movies論文紹介:MovieCLIP: Visual Scene Recognition in Movies
論文紹介:MovieCLIP: Visual Scene Recognition in Movies
 
論文紹介:Discovering Universal Geometry in Embeddings with ICA
論文紹介:Discovering Universal Geometry in Embeddings with ICA論文紹介:Discovering Universal Geometry in Embeddings with ICA
論文紹介:Discovering Universal Geometry in Embeddings with ICA
 
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
 
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
 
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
 
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
 
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
 
論文紹介:Spatio-Temporal Action Detection Under Large Motion
論文紹介:Spatio-Temporal Action Detection Under Large Motion論文紹介:Spatio-Temporal Action Detection Under Large Motion
論文紹介:Spatio-Temporal Action Detection Under Large Motion
 
論文紹介:Vision Transformer Adapter for Dense Predictions
論文紹介:Vision Transformer Adapter for Dense Predictions論文紹介:Vision Transformer Adapter for Dense Predictions
論文紹介:Vision Transformer Adapter for Dense Predictions
 
動画像理解のための深層学習アプローチ Deep learning approaches to video understanding
動画像理解のための深層学習アプローチ Deep learning approaches to video understanding動画像理解のための深層学習アプローチ Deep learning approaches to video understanding
動画像理解のための深層学習アプローチ Deep learning approaches to video understanding
 

Recently uploaded

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 

Recently uploaded (11)

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 

文献紹介:Image Segmentation Using Deep Learning: A Survey

  • 1. Image Segmentation Using Deep Learning: A Survey Shervin Minaee, Yuri Boykov, Fatih Porikli, Antonio Plaza, Nasser Kehtarnavaz, and Demetri Terzopoulos IEEE Transactions on Multimedia, 2021 , 2022/06/14
  • 3. n • 100 • 10 n • • n2D 2.5D 3D • 2.5D RGB+
  • 4. nRNN LSTM [Hochreiter+, Neural Computation, 1997] • nCNN [LeCun+ ,Proc. of IEEE, 2009] • 深層学習において最も成功したアーキテクチャの1つ nGAN [Goodfellow+, NeurIPS2014] • nエンコーダデコーダ [Badrinarayanan+, TPAMI2017] • 2段階のネットワークを介して学習
  • 5. 1. FCN 2. 3. 4. 5. R-CNN 6. 7. RNN 8. 9. 10. CNN
  • 7. FCN nFully Convolutional Networks (FCN) [Long+, CVPR2015] • • CNNの連結層を畳み込み層に置き換え • FCN
  • 8. model was tested on PASCAL VOC, NYUDv2, and SIFT F and achieved state-of-the-art segmentation performance Fig. 8. Skip connections combine coarse, high-level information and low-level information. From [31]. This work is considered a milestone in image segme tion, demonstrating that deep networks can be trained semantic segmentation in an end-to-end manner on varia sized images. However, despite its popularity and effect FCN n • • nFCN • • 3D nParseNet [Liu+, ICLR2016] • • FCN ParseNet
  • 9. 2.
  • 10. nConvolutional Random fields CRF [Zheng+, ICCV2015] • • nCNN CRF • • CNN CNN Bi-linear Interpolation CRF Refine CNN+CRF [Chen+, CVPR2014]
  • 11. 3.
  • 12. エンコーダデコーダモデル nエンコーダ • 入力を潜在空間表現に圧縮 nデコーダ • 潜在空間表現から出力を予測 nVGG16ベースモデル [Noh+ ,CVPR2015] ・エンコーダ ・畳み込み層を用いる ・入力は特徴ベクトル • • • VGG16
  • 13. nSegNet [Badrinarayanan+, CVPR2016] • VGG16 • • nU-net [Ronneberger+, MICCAI2015] • • • SegNet U-net
  • 14. 4.
  • 15. nPyramid Scene Parsing Network (PSPN) [Zhao+, CVPR2017] • • ResNet • • 4 •
  • 17. R-CNN n R-CNN [Girshick+, CVPR2014] • オブジェクトらしき領域を抽出 • それぞれの領域に対して特徴を抽出 • 学習と予測に時間がかかる nFaster R-CNN [Ren+, CVPR2015] • 領域提案ネットワーク(RPN)を使用 • bboxを候補を提案 • bbox座標とオブジェクトのクラスを推論 • インスタンス分割問題などのタスクに対応 Faster R-CNN architecture
  • 18. R-CNN nMask R-CNN [He+, CVPR2017] • 3 1. bbox 2. 3. • 3 nMaskLab [Chen+, CVPR2017] • 3 1. 2. 3. • / Mask R-CNN MaskLab
  • 19. 6.
  • 20. n • • nDeepLab [Chen+, ECCV2018] • • conv <latexit sha1_base64="G4TIL2lcMHRtACv4OVqQ+V9ieHA=">AAACjHicSyrIySwuMTC4ycjEzMLKxs7BycXNw8vHLyAoFFacX1qUnBqanJ+TXxSRlFicmpOZlxpaklmSkxpRUJSamJuUkxqelO0Mkg8vSy0qzszPCympLEiNzU1Mz8tMy0xOLAEKxQuoV8ZXZ9Yq2CrEFJfmxldn2xrWxlV711bEV0dnahdlx9aWA1lAKl5A2UDPAAwUMBmGUIYyAxQE5AssZ4hhSGHIZ0hmKGXIZUhlyGMoAbJzGBIZioEwmsGQwYChACgWy1ANFCsCsjLB8qkMtQxcQL2lQFWpQBWJQNFsIJkO5EVDRfOAfJCZxWDdyUBbcoC4CKhTgUHV4KrBSoPPBicMVhu8NPiD06xqsBkgt1QC6SSI3tSCeP4uieDvBHXlAukShgyELrxuLmFIY7AAuzUT6PYCsAjIF8kQ/WVV0z8HWwWpVqsZLDJ4DXT/QoObBoeBPsgr+5K8NDA1aDYDFzACDNGDG5MRZqRnaKZnEmii7OAEjQoOBmkGJQYNYHibMzgweDAEMIQC7e1l2Mywh2EvEx+TCZM1ky1EKRMjVI8wAwpgcgMAWdWZWA==</latexit> yi = K X k=1 x[i+rk]w[k] r DeepLabv3+ 3×3 5×5 r = 2
  • 22. RNN nRNN [Hochreiter+, Neural Computation, 1997] • / • nCNN LSTM [Hu+, CVPR2016] • CNN • LSTM “ woman sitting on the right bench” CNN+LSTM RNN
  • 23. 8.
  • 24. n重みつけ学習の注意機構を提案 [Chieh+, CVPR2016] • マルチスケール特徴を柔らかく重み付け • マルチスケール画像と注意モデルで共同学習 1.0 0.5
  • 25. 9.
  • 28. ACM CNN n ACM [Kass+ ,IJCV1988] • • nACM • [Chen+, CVPR2019] nACM FCN ACM
  • 29. n2D • PASCAL Visual Object Classes [Everingham+, IJCV2015] • PASCAL Context [Mottaghi+, CVPR2014] • COCO [Lin+, ECCV2014] • Cityscapes [Cordts+, CVPR2016] • ADE20K dataset [Zhou+, CVPR2017] • SiftFlow [Liu+, CVPR2019] • Stanford background [Gould+, ICCV2009] • BSD [Martin+, ICCV2001] • Youtube-Objects [Prest+, CVPR2012] • KITTI [Geiger+, IJRR2013] n2.5D • NYU-D V2 [Silberman+, ECCV2012] • SUN-3D [Xiao+, ICCV2013] • SUN RGB-D [Song+, CVPR2015] • UW RGB-D Object [Lai+, ICRA2011] n3D • Stanford 2D-3D [Armeni+, arXiv2017] • ShapeNet Core [Chang+, arXiv2015] • Sydney Urban Object [Deuge+, MDPI2013]
  • 30. nPixel accuracy (PA) • nMean Pixel Accuracy (MPA) • nIntersection over Union (IoU) • A B n Dice coefficient (Dice) • 2 nPrecision Recall F1score <latexit sha1_base64="B6F1b1wFp0Ow2XTJgUnkuUVhgh0=">AAACpnichVFNSxtRFD2OtrXpR9K6KXQzNKS4CjciVoRA1I1QkPiRRDDpdGZ80ZfMFzOTgA75A/4BF121IFL8GW7cuLTiTyhdWnDjojczAyWVtneY98497577znvP8CwZhETXY8r4xIOHjyYfZ548ffY8m3vxsh64Pd8UNdO1XH/L0ANhSUfUQhlaYsvzhW4blmgY3eXheqMv/EC6zma474mWre86si1NPWRKyy1WF9Wy2mz7uhk1g56tRU6ZBh/eq54Wyc5gkJIyIZOkM1Kh5fJUpDjU+6CUgjzSqLq5EzSxAxcmerAh4CBkbEFHwN82SiB4zLUQMeczkvG6wAAZ1va4SnCFzmyXx13OtlPW4XzYM4jVJu9i8e+zUkWBLukr3dA5ndJ3uvtrryjuMfSyz7ORaIWnZQ9fbdz+V2XzHGLvt+qfnkO0MR97lezdi5nhKcxE3z84utlYWC9Eb+kL/WD/n+mazvgETv+nebwm1j8hww9Q+vO674P6TLE0V5xdm81XltKnmMRrvME03/c7VLCCKmq87wku8A1XyrSyqtSURlKqjKWaKYyE8vEXFS6jYA==</latexit> PA = PK n=0 pij PK i=0 PK j=0 pij <latexit sha1_base64="+2ri+INny+YT/97H3RZ1UP7J4EY=">AAACpnichVFNS9xQFD1GW3Vs61g3gpvgYBEKw41IlYKgdSOIMmrHERybJvGNfZovksyADfkD/gEXrhRExJ/hxo1LFX+CuLTQTRe9kwRKK21vyHvnnXPPffe9Z/q2DCOiuw6ls+vZ8+6e3kLfi5ev+osDr9dCrxlYomp5thesm0YobOmKaiQjW6z7gTAc0xY1c3eurddaIgil536M9nyx6RjbrmxIy4iY0ouzi5VZdVqtNwLDirUkXnirJfWw6eixO03Jp4VM8PVY7iRJnCk7qaLmpF4sUZnSUJ8CLQcl5FHxiqeoYwseLDThQMBFxNiGgZC/DWgg+MxtImYuYCRTXSBBgb1NzhKcYTC7y+M2rzZy1uV1u2aYui3exeY/YKeKUbqmM3qkSzqne/rx11pxWqPdyx7PZuYVvt6/P7T6/b8uh+cIX365/tlzhAam0l4l9+6nTPsUVuZvfT14XH2/Mhq/oWN64P6P6I4u+ARu65t1sixWDlHgB9D+vO6nYG28rL0rTyxPlGY+5E/Rg2GMYIzvexIzmEcFVd73FFe4wa0ypiwpVaWWpSoduWcQv4Xy+SeYSaOm</latexit> MPA = 1 K + 1 K X n=0 pij PK j=0 pij <latexit sha1_base64="L1qV22xzKXKIcYKMqVagyzFYZ+E=">AAACiHichVFNLwNBGH66vuuruEhcNhri1LwV8ZVIqAs3WkWiIrtjWhvb3c3utgnVH8AfcHAiEREHV84u/oCDnyCOJC4O3m43EQTvZGaeeeZ93nlmRndMw/OJHiNKQ2NTc0trW7S9o7OrO9bTu+rZJVfIrLBN213XNU+ahiWzvuGbct1xpVbUTbmm787X9tfK0vUM21rx9xy5WdQKlpE3hOYztRWLL9pZdUbN5V1NVA7m1JzQHDV1UK3jUoA5ixIUhPoTJEMQRxhLduwCOWzDhkAJRUhY8Bmb0OBx20ASBIe5TVSYcxkZwb5EFVHWljhLcobG7C6PBV5thKzF61pNL1ALPsXk7rJSxRA90CW90D1d0RO9/1qrEtSoednjWa9rpbPVfdSfeftXVeTZx86n6k/PPvKYDLwa7N0JmNotRF1f3j9+yUynhyrDdEbP7P+UHumOb2CVX8X5skyfIMofkPz+3D/B6mgiOZ4YWx6Lz6bCr2jFAAYxwu89gVksYAlZPvcQ17jBrRJVSJlQpuqpSiTU9OFLKKkPZuuWKw==</latexit> IoU = |A B| |A [ B| <latexit sha1_base64="K9yQUUgVvDPv15yU+LH9i9E/bVU=">AAACh3ichVHLSsNAFD3Gd31V3QhugkURhDqVUkUQrLpw6asqWCnJONXBNAlJWtDEvfgDLlwpiIjgVvdu/AEXfoK4VHDjwts0ICrqHWbmzJl77pyZ0W1Duh5jj3VKfUNjU3NLa6ytvaOzK97ds+paZYeLHLcMy1nXNVcY0hQ5T3qGWLcdoZV0Q6zpu7PV/bWKcFxpmSveni02S9q2KYuSax5RhfjAnORCnVLzRUfj/liQVfNcs9WZ4MAPssFIQKAQT7AkC0P9CVIRSCCKBSt+gTy2YIGjjBIETHiEDWhwqW0gBQabuE34xDmEZLgvcIAYacuUJShDI3aXxm1abUSsSetqTTdUczrFoO6QUsUge2CX7IXdsyv2xN5/reWHNape9mjWa1phF7qO+pbf/lWVaPaw86n607OHIiZCr5K82yFTvQWv6Sv7xy/Lk0uD/hA7Y8/k/5Q9sju6gVl55eeLYukEMfqA1Pfn/glWx5KpTDK9mE5Mz0Rf0YJ+DGCY3nsc05jHAnJ07iGucYNbpVUZVTLKRC1VqYs0vfgSSvYD54aV+g==</latexit> Dice = 2|A B| |A| + |B|
  • 34. n • • 3D n • • FCN8 100ms n3D • •
  • 35. n • 100 10 n • n2D 2.5D 3D •