SlideShare a Scribd company logo
1 of 12
Download to read offline
Tracking Emerges by Colorizing Videos
の紹介
西村仁志
2022年2月8日
◼ 論文
Tracking Emerges by Colorizing Videos
Carl Vondrick, Abhinav Shrivastava, Alireza Fathi, Sergio Guadarrama, Kevin Murphy
(Google Research)
ECCV2018
◼ 概要
⚫ 動画像追跡:認識・幾何・インタラクションのタスクで重要
⚫ 問題:追跡データセットの作成は多大なコストがかかる
→教師なしデータによる自己教師あり学習を導入
⚫ 提案:追跡のための自己教師あり学習を、「動画着色」タスクを解くことによって実現
⚫ ポイント:グレースケール画像から直接色を推定するのではなく、参照画像から色をコピー
概要
2
車を追跡した例
3
着色モデル(推論時)=追跡モデル
𝑦𝑗 = ෍
𝑖
𝐴𝑖𝑗𝑐𝑖
グレースケール画像を入力とし、ポインタ機構を使用して参照画像から色を取得
ポインタ
(=追跡)
コピー
(=着色)
ターゲット画像
(時刻𝒕)
参照画像
(時刻𝒕 − 𝟏)
埋め込み
予測
手順
1. 各画素で埋め込みベクトル𝑓を算出
2. 画像間で画素単位の類似度行列𝐴を算出
3. 類似度最大となる画素を特定(=追跡)&色をコピー(=着色)
参照色
予測色
※コピー:厳密には線形変換
4
着色モデルによる着色の例
𝐴𝑖𝑗 𝑐𝑖
𝑦𝑗 = ෍
𝑖
1 2
3 4
0.2 0.2
0.2 0.2
0.2 0.9
0.2 0.2
0.2 0.2
0.2 0.2
0.2 0.2
0.2 0.2
1 2
3 4
類似度行列
ターゲット画像
参照画像
𝑦4 = 𝟎. 𝟗 × 255, 200, 200 + 0.2 × 255, 255, 255 + 0.2 × 255, 255, 255 + 0.2 × 255, 255, 255
1 2 3
𝑗
𝑖
4
4
ターゲット画像中の
画素𝑗
参照画像中の
画素𝑖
課題(3)
参照画像
2x2画像の例
1 2 3 4 1 2 3 4
?
1 2
3 4
1 2
3 4
グレースケール カラー
ターゲット画像
グレースケール カラー
1 2 3 4
1
3
2
4
5
着色モデル(学習時)
𝑦𝑗 = ෍
𝑖
𝐴𝑖𝑗𝑐𝑖
𝑓𝑖
𝑇
𝑓𝑗
σ𝑘 exp(𝑓𝑘
𝑇
𝑓𝑗)
ポインタ コピー
ターゲット画像
(時刻𝒕)
参照画像
(時刻は連続不要)
埋め込み
予測
𝑐𝑗
正解
min
𝜃
෍
𝑗
ℒ(𝑦𝑗, 𝑐𝑗)
損失関数
𝜃
参照画像中の1画素のみを参照
するように設計(=ポインタ)
softmax
多クラス交差
エントロピー
※類似した色でも、埋め込み空間で
類似しているとは限らない
6
着色モデルの応用
𝑐𝑖 ∈ ℝ𝑑
⚫ 領域追跡:各次元が各カテゴリの確率を示すようなベクトル
⚫ 人物姿勢追跡:各次元が各キーポイントの有無を示すような二値ベクトル
着色タスクでは、これを各画素𝑖におけるカラー情報とした
→置き換えることによって、他のタスクにも応用可能
着色モデルにおけるカラー情報を置き換えることにより、他の様々なタスクに応用可能
領域追跡 人物姿勢追跡
利点:いずれのタスクにおいても学習時に教師データが不要
7
状態空間モデルにおける運動モデルを、ポインタ機構を持つ着色モデルで表現したもの
◼ 状態空間モデル
⚫ 観測𝑦から、観測できない状態𝑥を推定するための時系列モデル
⚫ 運動モデルと観測モデルの2つで構成される
⚫ 運動モデル:状態-状態間
𝑥𝑡 = 𝐹 𝑥𝑡−1 + 𝑣𝑡
⚫ 観測モデル:状態-観測間
𝑦𝑡 = 𝐻 𝑥𝑡 + 𝑤𝑡
◼ 状態空間モデルによる追跡
⚫ 追跡タスクは、例えば下記のようにして解く
• 状態𝑥:物体の位置・大きさ
• 観測𝑦:画像から観測できる色や特徴量
1. 状態空間モデルとしての理解
𝑥1 𝑥2
… 𝑥𝑡−1 𝑥𝑡
𝑦1 𝑦2
… 𝑦𝑡−1 𝑦𝑡
観測
状態
𝐹
𝐻
雑音
雑音
8
◼ 追跡タスクによく用いられる運動モデル
⚫ 等速運動、等加速度運動
⚫ 正規分布に基づくランダムウォーク
→急な運動変化への対応は困難
◼ 提案手法の状態空間モデルとしての理解
𝑥𝑡−1とは独立に、画像から得た𝑢𝑡を運動モデルに導入
⚫ 運動モデル
𝑥𝑡 = 𝐹 𝑥𝑡−1, 𝑢𝑡 + 𝑣𝑡
⚫ 観測モデル
𝑦𝑡 = 𝐻 𝑥𝑡 + 𝑤𝑡
※観測モデルは定義していないが使用可能
𝒖𝒕に着色モデルによる高精度な追跡結果を用いることで、
物体の急な運動変化に対応可能
従来の運動モデルの問題と提案手法
𝑥1 𝑥2
… 𝑥𝑡−1 𝑥𝑡
𝑦1 𝑦2
… 𝑦𝑡−1 𝑦𝑡
観測
状態
𝐹
𝐻
𝑢2
… 𝑢𝑡−1 𝑢𝑡
(参考)
*1 川本一彦, “オプティカルフロー駆動型運動モデルによる適応的な粒子フィルタ,”
Fuzzy System Symposium, 2007.
9
着色を学習するだけで、自己教師あり学習による追跡が可能となり、
領域追跡や人物姿勢追跡にも応用できる汎用的な手法
2. Computer Vision 分野における理解
着色
追跡
(画素単位)
領域追跡 人物姿勢追跡
自己教師あり
学習
=
最も大きな違いは、時間的な連続性を直接学習せず、着色で間接的に学習する点
10
従来手法との違い
タスク 従来手法 提案手法
着色
時間的な連続性を直接学習 [37] 時間的な連続性を直接学習しない
→追跡が可能
領域追跡
大量の教師データで学習して精度
向上 [46-48]
自己教師あり学習のため教師データ
不要
人物姿勢追跡
教師データは不要だが、大量の合成
データで学習して精度向上 [23]
合成データは不要
従来手法 [37] 提案手法
11
低コストで、色が類似した多物体を長時間追跡可能
3. 応用例:車載カメラを用いた複数物体追跡
従来手法
(オプティカルフローベース)
FlowNet2 [23]
従来手法
(教師あり)
OSVOS [47]
提案手法
(着色ベース)
コスト
教師データ不要(学習時) ○ × ○
グレースケール画像のみ入力 ○ ○ ○
物体数の増加 ○ ○ ○
精度
色が類似した多物体の追跡 △ ◎ ○
長時間の追跡 △ ◎ ○
12
◼ コストの観点
⚫ 学習時:自己教師あり学習のため、教師データが不要
→カメラ搭載の車を走行させ、RGB画像を撮影するだけでOK
⚫ 推論時:グレースケール画像のみの入力でOK
→カメラの低スペック化、メモリの小容量化、通信帯域の削減が可能
⚫ 推論時:画素単位の追跡をもとにしたボトムアップな手法
→物体数が増えた場合でも計算量が増加しにくい
◼ 精度の観点
⚫ 色が類似した多物体を識別しながら追跡可能
→白・黒のような、類似することが多い色の車や人物にも対応可能
⚫ 追跡誤差の蓄積が少ないため、長時間の追跡が可能
複数物体追跡における提案手法の利点
色が類似した多物体の例
(白い衣服の人物3名)
Inputs Predicted Segmentations

More Related Content

Featured

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Tracking emerges by colorizing videosの紹介