SlideShare a Scribd company logo
1 of 21
Self-supervised Video Object Segmentation
岩隈 啓悟 / Keigo Iwakuma
タイトル:Self-supervised Video Object Segmentation
著者:Fangrui Zhu, Li Zhang, Yanwei Fu, Guodong Guo, Weidi Xie
所属:Fudan University, University of Oxford, West Virginia University
論文:https://arxiv.org/abs/2006.12480
実装:https://github.com/fangruizhu/self_sup_semiVOS (coming soon...)
タイトル:Self-supervised Video Object Segmentation
目次:
1. 概要
2. タスク
3. 関連研究
4. 提案手法
5. 結果
6. 感想
選定理由:前回(MAST, CVPR2020)よりさらに結果が良かったため
今回
前回
1.概要
著者が挙げている4つの貢献
1. よりシンプルで効率的な記憶機構を提案し、対象の追跡性能を改善
2. 逐次的に予測を修正する機構を提案し、オクルージョンに対応
3. VOSに適した自己教師あり学習表現を獲得(少量のデータで学習可)
4. VOSの自己教師あり学習手法のベンチマークを更新
2.タスク
Trackingには大きく分けて2種類のタスクがある
Visual Object Tracking(VOT):
動画内の対象の位置をバウンディングボックスで求める
Video Object Segmentation(VOS):
動画内の対象の位置をピクセル単位のマスクで求める
2.タスク
Video Object Segmentation (dense tracking) :
特にテスト時に最初のフレームのマスクが与えられる設定のものを
”Semi-supervised Video Object Segmentation (Semi-VOS)” と呼ぶ
代表的な枠組み1:Segmentation modelを作る 代表的な枠組み2:マスクを伝播させる
2.関連研究:propagation-based dense tracking
Tracking emerges by colorizing videos (ECCV2018)
過去のフレームを参照して現在のフレームの色を予測するタスクを行うこと
で
現在と過去のフレームの対応付け方法を学習する
正確にはLab空間でのLの値を用いたグレー画像から、各ピクセルのaとbの値を予測する
ただし、aとbの値の予測はあらかじめab空間内で行ったクラスタリング結果(16個のクラスタを作成)への分類である
3.関連研究:propagation-based dense tracking
MAST: A Memory-Augmented Self-Supervised Tracker (CVPR2020)
Tracking emerges by colorizing videoからの改善点
1. タスクの変更
2. 記憶機構の追加
3. propagation方法の改善
前回
Tracking emerges by colorizing video
3.関連研究:propagation-based dense tracking
MAST: A Memory-Augmented Self-Supervised Tracker (CVPR2020)
1.タスクの変更
グレー画像(Lab空間のL)⇒ カラー画像(Lab空間のabのクラスタに分類)
Lab画像(Channel dropoutあり)⇒ Lab画像(各Channelの値を回帰)
Lab空間を利用する目的は、各チャンネルごとに相関がなく
DropoutがBottleneckとして機能するため
回帰の損失にはHuber Lossを使用
(分類にはCross Entropy Lossを使用していた)
3.関連研究:propagation-based dense tracking
MAST: A Memory-Augmented Self-Supervised Tracker (CVPR2020)
2.記憶機構の追加
参照画像が連続したもののみだと画像内から見えなくなったときに復帰ができない
⇒ 参照画像を増やす
長期記憶として1, 5フレーム目、短期記憶として現在から-1, -3, -5フレーム目の
計5枚を参照画像として使用する
3.関連研究:propagation-based dense tracking
MAST: A Memory-Augmented Self-Supervised Tracker (CVPR2020)
3.propagation方法の改善
各ピクセルの類似度を参照画像の全ピクセルと計算するのは負担が大きすぎる
⇒ coarse-to-fineな方法で領域を限定する
coarse:各ピクセルが参照画像のどこに近いか中心位置(ROIの中心)を決める
fine:その中心位置から一定の距離内(ROI内)にあるピクセルの類似度を計算する
ROI中心を決めるための類似度
dilation ratio
ROI中心
3.関連研究:momentum update
Momentum Contrast for Unsupervised Visual Representation learning
(CVPR2020)
この論文で使用されているmomentum updateと呼ばれる手法を利用することで
学習時の特徴の一貫性が保たれるためより良い表現が得られる、物理メモリ負荷も軽減可能
Key側の特徴抽出器のパラメータ更新は誤差逆伝播
ではなく、以下のmomentum updateを利用
3.関連研究:prior
Deep Image Prior (CVPR2018)
ノイズ除去などの画像復元タスクを行う際に出力を方向づける制約をPriorと呼ぶ
NNを用いた画像復元ではそのPriorはデータから学習されるものと考えられてきたが
NNの構造自体がPriorの役割を持っているということを実験的に示した論文
ダウンサンプリングして左のようになる画像は
無数にあるが顔の構造を知っていれば右のような画像
になりそうと検討がつく
この例では顔の構造がPriorとなっている
4.提案手法
Self-supervised Video Object Segmentation
貢献1
貢献4
貢献3
貢献2
4.提案手法:貢献1
Self-supervised Video Object Segmentation
ROI Localizationを撤廃 ⇒ 各ピクセルをそのままROIの中心とする
QueryとKeyで特徴抽出器を分ける:Key側の更新はmomentum updateを利用
特徴抽出器を分ける(momentum updateの利用)
ROIの中心は各ピクセルの位置をそのまま利用
PropagationはそのままROI内の類似度との加重平均
Huber lossを使用
4.提案手法:貢献2
Self-supervised Video Object Segmentation
propagation basedな手法では時空間的な連続性を持ったピクセル単位の輝度の一致しか
考慮していないため一度オクルージョンなどが起きると復帰が難しい
⇒ 外見を考慮したモデルを新たに加え、その出力を最終的な予測とする
200 iters from scratch
最終的な予測
Deep Image Priorの利用
pixel-wise cross entropy lossとDice lossを使用propagation masks
(pseudo groundtruth)
Propagation masksとU-Net出力の評価 Ground TruthとU-Net出力の評価
5.結果
実験の設定:
Backbone: ResNet-18 (input size: 384x384 (encoder), 480x480 (U-Net))
Dataset: YouTube-VOS, DAIVS-2017
Metric: region similarity (J), contour accuracy (F)
Ablation Study
5.結果:貢献3、4
今回提案した機構を用いることで、少量のデータでもより効率的に学習できる(左)
自己教師あり学習では最も成績がよく、教師あり学習にも匹敵する(真ん中)
学習時になかったクラスに関しても結果が良い(右)
5.結果:Appendix
機構の有無による定性比較
U-Netのiter数による定性比較
6.まとめ:概要再掲
著者が挙げている4つの貢献
1. よりシンプルで効率的な記憶機構を提案し、対象の追跡性能を改善
2. 逐次的に予測を修正する機構を提案し、オクルージョンに対応
3. VOSに適した自己教師あり学習表現を獲得(少量のデータで学習可)
4. VOSの自己教師あり学習手法のベンチマークを更新
6.感想
Online Adaptationについて、論文を読む限りpropagationをし終えてからU-
Netの学習に入るように感じたがどのへんがOnlineなのか
合わせ技のような論文だったが、各手法の活用がよく出来ていると思った
細かい部分でわからないところが多かったので実装の公開が待たれる

More Related Content

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

[DL輪読会]Self-supervised Video Object Segmentation