[DL輪読会]Self-supervised Video Object Segmentation

Self-supervised Video Object Segmentation
岩隈啓悟 / Keigo Iwakuma

タイトル：Self-supervised Video Object Segmentation
著者：Fangrui Zhu, Li Zhang, Yanwei Fu, Guodong Guo, Weidi Xie
所属：Fudan University, University of Oxford, West Virginia University
論文：https://arxiv.org/abs/2006.12480
実装：https://github.com/fangruizhu/self_sup_semiVOS (coming soon...)

タイトル：Self-supervised Video Object Segmentation
目次：
1. 概要
2. タスク
3. 関連研究
4. 提案手法
5. 結果
6. 感想
選定理由：前回（MAST, CVPR2020）よりさらに結果が良かったため
今回
前回

１．概要
著者が挙げている4つの貢献
1. よりシンプルで効率的な記憶機構を提案し、対象の追跡性能を改善
2. 逐次的に予測を修正する機構を提案し、オクルージョンに対応
3. VOSに適した自己教師あり学習表現を獲得（少量のデータで学習可）
4. VOSの自己教師あり学習手法のベンチマークを更新

２．タスク
Trackingには大きく分けて2種類のタスクがある
Visual Object Tracking（VOT）：
動画内の対象の位置をバウンディングボックスで求める
Video Object Segmentation（VOS）：
動画内の対象の位置をピクセル単位のマスクで求める

２．タスク
Video Object Segmentation (dense tracking) ：
特にテスト時に最初のフレームのマスクが与えられる設定のものを
”Semi-supervised Video Object Segmentation (Semi-VOS)” と呼ぶ
代表的な枠組み１：Segmentation modelを作る代表的な枠組み２：マスクを伝播させる

２．関連研究：propagation-based dense tracking
Tracking emerges by colorizing videos (ECCV2018)
過去のフレームを参照して現在のフレームの色を予測するタスクを行うこと
で
現在と過去のフレームの対応付け方法を学習する
正確にはLab空間でのLの値を用いたグレー画像から、各ピクセルのaとbの値を予測する
ただし、aとbの値の予測はあらかじめab空間内で行ったクラスタリング結果（16個のクラスタを作成）への分類である

３．関連研究：propagation-based dense tracking
MAST: A Memory-Augmented Self-Supervised Tracker (CVPR2020)
Tracking emerges by colorizing videoからの改善点
1. タスクの変更
2. 記憶機構の追加
3. propagation方法の改善
前回
Tracking emerges by colorizing video

１．タスクの変更
グレー画像（Lab空間のL）⇒ カラー画像（Lab空間のabのクラスタに分類）
Lab画像（Channel dropoutあり）⇒ Lab画像（各Channelの値を回帰）
Lab空間を利用する目的は、各チャンネルごとに相関がなく
DropoutがBottleneckとして機能するため
回帰の損失にはHuber Lossを使用
（分類にはCross Entropy Lossを使用していた）

２．記憶機構の追加
参照画像が連続したもののみだと画像内から見えなくなったときに復帰ができない
⇒ 参照画像を増やす
長期記憶として1, 5フレーム目、短期記憶として現在から-1, -3, -5フレーム目の
計５枚を参照画像として使用する

３．propagation方法の改善
各ピクセルの類似度を参照画像の全ピクセルと計算するのは負担が大きすぎる
⇒ coarse-to-fineな方法で領域を限定する
coarse：各ピクセルが参照画像のどこに近いか中心位置（ROIの中心）を決める
fine：その中心位置から一定の距離内（ROI内）にあるピクセルの類似度を計算する
ROI中心を決めるための類似度
dilation ratio
ROI中心

３．関連研究：momentum update
Momentum Contrast for Unsupervised Visual Representation learning
(CVPR2020)
この論文で使用されているmomentum updateと呼ばれる手法を利用することで
学習時の特徴の一貫性が保たれるためより良い表現が得られる、物理メモリ負荷も軽減可能
Key側の特徴抽出器のパラメータ更新は誤差逆伝播
ではなく、以下のmomentum updateを利用

３．関連研究：prior
Deep Image Prior (CVPR2018)
ノイズ除去などの画像復元タスクを行う際に出力を方向づける制約をPriorと呼ぶ
NNを用いた画像復元ではそのPriorはデータから学習されるものと考えられてきたが
NNの構造自体がPriorの役割を持っているということを実験的に示した論文
ダウンサンプリングして左のようになる画像は
無数にあるが顔の構造を知っていれば右のような画像
になりそうと検討がつく
この例では顔の構造がPriorとなっている

４．提案手法
貢献１
貢献４
貢献３
貢献２

４．提案手法：貢献１
ROI Localizationを撤廃 ⇒ 各ピクセルをそのままROIの中心とする
QueryとKeyで特徴抽出器を分ける：Key側の更新はmomentum updateを利用
特徴抽出器を分ける（momentum updateの利用）
ROIの中心は各ピクセルの位置をそのまま利用
PropagationはそのままROI内の類似度との加重平均
Huber lossを使用

４．提案手法：貢献２
propagation basedな手法では時空間的な連続性を持ったピクセル単位の輝度の一致しか
考慮していないため一度オクルージョンなどが起きると復帰が難しい
⇒ 外見を考慮したモデルを新たに加え、その出力を最終的な予測とする
200 iters from scratch
最終的な予測
Deep Image Priorの利用
pixel-wise cross entropy lossとDice lossを使用propagation masks
(pseudo groundtruth)
Propagation masksとU-Net出力の評価 Ground TruthとU-Net出力の評価

５．結果
実験の設定：
Backbone: ResNet-18 (input size: 384x384 (encoder), 480x480 (U-Net))
Dataset: YouTube-VOS, DAIVS-2017
Metric: region similarity (J), contour accuracy (F)
Ablation Study

５．結果：貢献３、４
今回提案した機構を用いることで、少量のデータでもより効率的に学習できる（左）
自己教師あり学習では最も成績がよく、教師あり学習にも匹敵する（真ん中）
学習時になかったクラスに関しても結果が良い（右）

５．結果：Appendix
機構の有無による定性比較
U-Netのiter数による定性比較

６．まとめ：概要再掲
著者が挙げている4つの貢献
1. よりシンプルで効率的な記憶機構を提案し、対象の追跡性能を改善
2. 逐次的に予測を修正する機構を提案し、オクルージョンに対応
3. VOSに適した自己教師あり学習表現を獲得（少量のデータで学習可）
4. VOSの自己教師あり学習手法のベンチマークを更新

６．感想
Online Adaptationについて、論文を読む限りpropagationをし終えてからU-
Netの学習に入るように感じたがどのへんがOnlineなのか
合わせ技のような論文だったが、各手法の活用がよく出来ていると思った
細かい部分でわからないところが多かったので実装の公開が待たれる

[DL輪読会]Self-supervised Video Object Segmentation

Recommended

Recommended

More Related Content

More from Deep Learning JP

More from Deep Learning JP (20)

[DL輪読会]Self-supervised Video Object Segmentation