Tracking emerges by colorizing videosの紹介

Tracking Emerges by Colorizing Videos
の紹介
西村仁志
2022年2月8日

◼ 論文
Tracking Emerges by Colorizing Videos
Carl Vondrick, Abhinav Shrivastava, Alireza Fathi, Sergio Guadarrama, Kevin Murphy
(Google Research)
ECCV2018
◼ 概要
⚫ 動画像追跡：認識・幾何・インタラクションのタスクで重要
⚫ 問題：追跡データセットの作成は多大なコストがかかる
→教師なしデータによる自己教師あり学習を導入
⚫ 提案：追跡のための自己教師あり学習を、「動画着色」タスクを解くことによって実現
⚫ ポイント：グレースケール画像から直接色を推定するのではなく、参照画像から色をコピー
概要
2
車を追跡した例

3
着色モデル（推論時）＝追跡モデル
𝑦𝑗 = ෍
𝑖
𝐴𝑖𝑗𝑐𝑖
グレースケール画像を入力とし、ポインタ機構を使用して参照画像から色を取得
ポインタ
（＝追跡）
コピー
（＝着色）
ターゲット画像
（時刻𝒕）
参照画像
（時刻𝒕 − 𝟏）
埋め込み
予測
手順
1. 各画素で埋め込みベクトル𝑓を算出
2. 画像間で画素単位の類似度行列𝐴を算出
3. 類似度最大となる画素を特定（＝追跡）＆色をコピー（＝着色）
参照色
予測色
※コピー：厳密には線形変換

4
着色モデルによる着色の例
𝐴𝑖𝑗 𝑐𝑖
𝑦𝑗 = ෍
𝑖
1 2
3 4
0.2 0.2
0.2 0.2
0.2 0.9
0.2 0.2
0.2 0.2
0.2 0.2
0.2 0.2
0.2 0.2
1 2
3 4
類似度行列
参照画像
𝑦4 = 𝟎. 𝟗 × 255, 200, 200 + 0.2 × 255, 255, 255 + 0.2 × 255, 255, 255 + 0.2 × 255, 255, 255
1 2 3
𝑗
𝑖
4
4
ターゲット画像中の
画素𝑗
参照画像中の
画素𝑖
課題（3）
参照画像
2x2画像の例
1 2 3 4 1 2 3 4
？
1 2
3 4
1 2
3 4
ｸﾞﾚｰｽｹｰﾙカラー
ｸﾞﾚｰｽｹｰﾙカラー
1 2 3 4
1
3
2
4

5
着色モデル（学習時）
𝑦𝑗 = ෍
𝑖
𝐴𝑖𝑗𝑐𝑖
𝑓𝑖
𝑇
𝑓𝑗
σ𝑘 exp(𝑓𝑘
𝑇
𝑓𝑗)
ポインタコピー
（時刻𝒕）
参照画像
（時刻は連続不要）
埋め込み
予測
𝑐𝑗
正解
min
𝜃
෍
𝑗
ℒ(𝑦𝑗, 𝑐𝑗)
損失関数
𝜃
参照画像中の1画素のみを参照
するように設計（＝ポインタ）
softmax
多クラス交差
エントロピー
※類似した色でも、埋め込み空間で
類似しているとは限らない

6
着色モデルの応用
𝑐𝑖 ∈ ℝ𝑑
⚫ 領域追跡：各次元が各カテゴリの確率を示すようなベクトル
⚫ 人物姿勢追跡：各次元が各キーポイントの有無を示すような二値ベクトル
着色タスクでは、これを各画素𝑖におけるカラー情報とした
→置き換えることによって、他のタスクにも応用可能
着色モデルにおけるカラー情報を置き換えることにより、他の様々なタスクに応用可能
領域追跡人物姿勢追跡
利点：いずれのタスクにおいても学習時に教師データが不要

7
状態空間モデルにおける運動モデルを、ポインタ機構を持つ着色モデルで表現したもの
◼ 状態空間モデル
⚫ 観測𝑦から、観測できない状態𝑥を推定するための時系列モデル
⚫ 運動モデルと観測モデルの2つで構成される
⚫ 運動モデル：状態－状態間
𝑥𝑡 = 𝐹 𝑥𝑡−1 + 𝑣𝑡
⚫ 観測モデル：状態－観測間
𝑦𝑡 = 𝐻 𝑥𝑡 + 𝑤𝑡
◼ 状態空間モデルによる追跡
⚫ 追跡タスクは、例えば下記のようにして解く
• 状態𝑥：物体の位置・大きさ
• 観測𝑦：画像から観測できる色や特徴量
1. 状態空間モデルとしての理解
𝑥1 𝑥2
… 𝑥𝑡−1 𝑥𝑡
𝑦1 𝑦2
… 𝑦𝑡−1 𝑦𝑡
観測
状態
𝐹
𝐻
雑音
雑音

8
◼ 追跡タスクによく用いられる運動モデル
⚫ 等速運動、等加速度運動
⚫ 正規分布に基づくランダムウォーク
→急な運動変化への対応は困難
◼ 提案手法の状態空間モデルとしての理解
𝑥𝑡−1とは独立に、画像から得た𝑢𝑡を運動モデルに導入
⚫ 運動モデル
𝑥𝑡 = 𝐹 𝑥𝑡−1, 𝑢𝑡 + 𝑣𝑡
⚫ 観測モデル
𝑦𝑡 = 𝐻 𝑥𝑡 + 𝑤𝑡
※観測モデルは定義していないが使用可能
𝒖𝒕に着色モデルによる高精度な追跡結果を用いることで、
物体の急な運動変化に対応可能
従来の運動モデルの問題と提案手法
𝑥1 𝑥2
… 𝑥𝑡−1 𝑥𝑡
𝑦1 𝑦2
… 𝑦𝑡−1 𝑦𝑡
観測
状態
𝐹
𝐻
𝑢2
… 𝑢𝑡−1 𝑢𝑡
（参考）
*1 川本一彦, “オプティカルフロー駆動型運動モデルによる適応的な粒子フィルタ,”
Fuzzy System Symposium, 2007.

9
着色を学習するだけで、自己教師あり学習による追跡が可能となり、
領域追跡や人物姿勢追跡にも応用できる汎用的な手法
2. Computer Vision 分野における理解
着色
追跡
（画素単位）
領域追跡人物姿勢追跡
自己教師あり
学習
＝

最も大きな違いは、時間的な連続性を直接学習せず、着色で間接的に学習する点
10
従来手法との違い
タスク従来手法提案手法
着色
時間的な連続性を直接学習 [37] 時間的な連続性を直接学習しない
→追跡が可能
領域追跡
大量の教師データで学習して精度
向上 [46-48]
自己教師あり学習のため教師データ
不要
人物姿勢追跡
教師データは不要だが、大量の合成
データで学習して精度向上 [23]
合成データは不要
従来手法 [37] 提案手法

11
低コストで、色が類似した多物体を長時間追跡可能
3. 応用例：車載カメラを用いた複数物体追跡
従来手法
（ｵﾌﾟﾃｨｶﾙﾌﾛｰﾍﾞｰｽ）
FlowNet2 [23]
従来手法
（教師あり）
OSVOS [47]
提案手法
（着色ベース）
コスト
教師データ不要（学習時） ○ × ○
グレースケール画像のみ入力 ○ ○ ○
物体数の増加 ○ ○ ○
精度
色が類似した多物体の追跡 △ ◎ ○
長時間の追跡 △ ◎ ○

12
◼ コストの観点
⚫ 学習時：自己教師あり学習のため、教師データが不要
→カメラ搭載の車を走行させ、RGB画像を撮影するだけでOK
⚫ 推論時：グレースケール画像のみの入力でOK
→カメラの低スペック化、メモリの小容量化、通信帯域の削減が可能
⚫ 推論時：画素単位の追跡をもとにしたボトムアップな手法
→物体数が増えた場合でも計算量が増加しにくい
◼ 精度の観点
⚫ 色が類似した多物体を識別しながら追跡可能
→白・黒のような、類似することが多い色の車や人物にも対応可能
⚫ 追跡誤差の蓄積が少ないため、長時間の追跡が可能
複数物体追跡における提案手法の利点
色が類似した多物体の例
（白い衣服の人物3名）
Inputs Predicted Segmentations

Tracking emerges by colorizing videosの紹介

Recommended

Recommended

More Related Content

Featured

Featured (20)

Tracking emerges by colorizing videosの紹介