人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)

人が注目する箇所を当てるSaliency
Detectionの
最新モデル UCNet(CVPR2020)
EAGLYS株式会社
AI 勉強会 #7 2020/11/19(Thu)
吉田慎太郎
@sht_47

EAGLYS株式会社 AI勉強会
1. NAS 入門
2. Out of Distribution【入門編】
3. Out of Distribution【実践編】画像認識 x 異常検知
4. 安定の可視化手法「Grad-CAM 」
5. 新しい Optimizer 「Adabelief」
6. Federated Learning 入門
7. Saliency Detection最新研究 UCNet ⇦今日

今日の発表内容
- Saliency Detectionとは
- Semantic Segmentation の復習
- Semantic Segmentationの有名手法 FCN と UNet の紹介
- UCNet
- 評価指標と結果

Saliency Detectionとは
- Semantic Segmentationという分野の1カテゴリーかつ設定がより高次元
- 近年、RGB-D画像の入手が容易になり、RGB-D画像を用いたモデルが注目
- トラッキング、画像抽出、要約動画の作成、動画理解への応用が期待される

UCNetの簡単な紹介
- CVPR2020に採択、CVPR2020のBest Paper Awardにノミネート
- オーストラリア国立大学の論文
- RGB-D Saliency Detectionのタスクで全てのDataset, 全ての指標でSOTA
- CVAE(Conditional Variational AutoEncoder)を導入
- Depth Correction Networkと呼ばれるアノテーターの不確かさを考慮したモデル

Semantic Segmentationの基本
Image Classification との違い
ピクセルごとにクラスを予測
FCN(2014, Jonathan)
15層の3x3 Convで1/32
7x7 Convと1x1Convで4096次元に
1x1 Convで21次元に(VOCのクラス数)
Transpose Convで元の画像サイズ

TransposeConv2D
Quiz : TransposeConv2DのOutput Shapeは？
>> input = torch.randn(20, 16, 50, 100)
>> m = nn.ConvTranspose2d(16, 33,
kernel_size=3, stride=2, padding=1,dilation=2)
>> output = m(input)
[ Image Credit ]
元画像 2x2 アップサンプリング後 4x4
Stride : 1
Padding : 0 (Valid in Tensorflow)
Dilation : 1

TransposeConv2D
正解 :
torch.Size([20, 33, 101, 201])

TransposeConv2Dの計算方法 (Stride)
Stride = 1
Step(0)
Stride = 2
... ...Output
Input
Kernel
Step(1) Step(1)
まとめ
StrideはInput上をカーネル
が操作する時の回数が変更

TransposeConv2Dの計算方法(Padding)
Padding = 1
...
...
Output
...
Padding = 2Padding = 0
まとめ
Paddingはカーネルの
スタート地点が変更

TransposeConv2Dの計算方法 (Dilation)
Dilation = 1 Dilation = 2
...
Output
Input
Kernel
カーネル走査スタート時
...
まとめ
Paddingはカーネルのスタート地点
からInput上に行くまでの距離が変更

TransposeConv2D 解答
正解 :
torch.Size([20, 33, 101, 201])

実際のコード
FCN(2014, Jonathan)
15層の3x3 Convで1/32
7x7 Convと1x1Convで4096次元に
1x1 Convで21次元に(VOCのクラス数)
torch.Size([1, 21, 16, 12])
Transpose Convで元の画像サイズ
nn.ConvTranspose2d(21, 21, 64, stride=32)
torch.Size([1, 21, 416, 544])
500
375

Fully Convolutional Network
FCN-32s : そのまま
FCN-16s : feature4とconcat
FCN-8s : feature3とconcat
結果
空間的な情報を補完することが可能

UNet(2015, Olaf)
- 医療画像が対象
- High resolutionの画像生成が可能
- GAN で広く応用!

Saliency Detection
- 2D, 3D(Depth), 4Dの問題に分けることが可能
- ルール⇨CNN⇨Network Engineering
3D(RGB-D画像)は大きくわけて2種類
- MultiModal Input Fusion ⇦◉, UCNet
- MultiModal Feature Fusion ⇦◉
- UniModal Result Fusion
近年の動向 Coase to Fine , SOC
[ Image Credit ]
Kinect
[ Image Credit ]
RealSense
[ Image Credit ]

UCNet(2020, Jing)
● 5つのモジュール(実質3つ)
● 学習とテストで使うモジュールが異なる
● 実際のコードを追うことは大変
Contribution
1 ) 初めてこのタスクでCVAEを採用
2 ) 多数決をするモジュール(実装なし)
3 ) Depth情報も修正

Conditional Variational AutoEncoder
AutoEncoderとVariational AutoEncoderの復習
AutoEncoder
[ Image Credit ]
Variational AutoEncoder
精度の向上、Latent Vectorの分布が0中心、Latent Vetorであるzの分布が連続的
平均0分散1の正規分布に近づくように KL Lossを追加
[ Image Credit ]

Conditional Variational AutoEncoder
- 欲しいyラベルを出力したい (Yが複数のモードを持つとき )
- 効率よく学習したい
Encoder, Decoderにyラベルを追加
Objective Functionや
モデル構成は入力を増やす以外ほぼ同じ
Reconstruction Loss Kullback Leibler Divergence(正則化項)
このyをGT画像にしてSaliency Detectionタスクに応用 = UCNet
CVAE
VAE

PriorNet and PosteriorNet
RGB + D をもとにLatent Vector Zを作成 = PriorNet
RGB + D + GTをもとにLatent Vector Zを作成 = PriorNet
構造はシンプルで5層のCNN(BNとLeaky ReLU) + Flatten + MLP
Feature Expandingは2次元のテンソルを
4次元のB x 画像サイズに拡大
Loss
KL Divergence

DepthCorrectNet
- Annotatorの不確かさを考慮し、Depth画像を修正
- EncoderとDecoderからなり、
EncoderはResNet50を使用
Decoder
- LayerごとのFeatureをConvでChannel数
UpSamplingでサイズを揃える
- Dilated Conv(6, 12, 18, 24)を挿入
足し合わせる
Layer 1
Layer 2
Layer 3
Layer 4
RGB-D 画像
ResNet50
Dilated6,12,18,24
Depth画像
C

DenseASPP
- Semantic Segmentationの
テクニックの一つ
特徴
- Dilated Convolutionの結果を
ConcatenateするASPP
- 途中のFeatureを
最終層につなげるDenseNet

SaliencyNet
- EncoderとDecoder 構造
- Input : RGB-D画像 + Latent Vector
Latent Vectorは画像サイズと同じに
- Output : 1channelのSaliency Map
Encoder
ResNet50
Decoder
- それぞれのFeature Mapsに対して、
DenseASPP
Layer 1
Layer 2
Layer 3
Layer 4
RGB-D 画像
+ Latent Vector
ResNet50
C
DenseASPP
DenseASPP
DenseASPP
DenseASPP
Saliency Map
Decoder

Channel Attention Module(2018, Sangyurun)
SE ModuleのAvg Poolingだけでなく、 Max PoolingとAvg Poolingを組み合わせ
⇨コードにはChannel Attentionと書いているが、実装上はSE Module
SE Module [ Image Credit ]

Hide and Seek Module(2017, Krishna)
- 画像を16個のPatchに分割
- 学習中のみ50%の確率でマスキング
効果
- モデルがObjectの関連した
パーツを学習する

Semantic Segmentationの指標 4つ
今回使用している指標
- MAE
- Mean F-Measure
- S-Measure
- Mean E-Measure
従来の指標
- OP(Overall Pixel Accuracy) , PC(Per Class Accuracy), IOU
- JI(Jaccard Index) i番目のクラスと予測したうちでどの程度合っているか

Mean F-Measure( Arbelaez, 2011)
輪郭を正解することがタスクにおいてより重要
輪郭かどうかを予測し、画像の対角成分の0.75%に設定したθ以内に収まると1

S-Measure(2017, Deng-ping)
構造の類似度(Structure Similarity)を捉えたい
SSIMをベースに 0.5*Sr+0.5*Soで定義
Region-Aware Structure Similarity Sr
Object-Aware Structure Similarity So
(Object Levelが高次元の問題に不可欠)
Xfg, YfgはGT, SMの確率分布
So = μOBG + (1-μ)OFG
分布の拡散具合輝度の分布の近さ

E-Measure(2018, Deng-ping)
S-MeasureはBinary Mapでうまくいかない
Pixelだけの情報でなく、Imageレベルの量も重要
IはForeground Map, Aは全てが1の行列
Bias Matrix φ 輝度のコントラスト
と強い相関
類似度をアマダール積で計算

結果1
- CVAEにより多様な予測が可能に
- 精度も高い
- Ours(1)とOurs(2)はCVAEからrandomにサンプリング

結果3 Ablation Studies
M2 :
Depth Correction Networkの有無で比較
M4 :
VAE vs CVAE
M6 :
Monte Carlo Dropout との比較
( テスト中にDropoutを行うことで
Stochastic Inferenceを実現 )

所感
- 少しずつ盛り上がってきている分野
- 不確かさを考慮するDepth Correction Netや
予測に確立要素を組み込むCVAEは応用が広そう
- CVAEの実装が勉強になった。

人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)

Similar to 人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020) (20)

Recently uploaded

Recently uploaded (9)

人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)