[DL輪読会]"Omnimatte: Associating Objects and Their Effects in Video"

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Omnimatte: Associating Objects andTheir Effects inVideo
(CVPR 2021 Oral)
Takeru Oba, Ukita Lab

書誌情報
2
タイトル：Omnimatte: Associating Objects and Their Effects in Video
著者：Erika Lu 1, 2 Forrester Cole 1 Tali Dekel 1, 3 Andrew Zisserman 2
William T. Freeman 1 Michael Rubinstein 1
1: Google Research, 2: VGG, University of Oxford, 3: Weizmann Institute of Science
会議：CVPR 2021
関連研究：Layered Neural Rendering for Retiming People in Video (同じ著者）
図、動画はプロジェクトページと論文から引用（https://omnimatte.github.io/#paper）

概要
モチベ：物体がシーンに与える影響を特定したい
応用：Inpainting, Color pop, Stroboscopy
3

概要
4
影だけでなく、様々な種類の影響を予測
例：車の出す煙
例：水の波紋

概要
カメラの移動にも複数物体にも対応
例：カメラの移動
例：複数物体（人とサッカーボール）
5

概要
タスク：
動画と対象物体の大まかなマスクを入力としてOmnimatteと背景を予測
これを自己教師あり学習で行う
Omnimatteとは：
対象物体とその物体が影響した部分のマスク(α）とカラー（RGB）
6
入力出力

ネットワークの全体像
7
U-Net
OmniMatteモデルは動画ごとに学習
IDとマスク部分のフロー、潜在変数をモデルに入力
（カラー画像を入力しない）
Omnimatteとフローを予測
潜在変数は固定
背景予測以外では
該当する領域を
クロップ
物体ごと
に予測

損失関数
OmniMatteモデルを5つの損失関数により学習
再構成誤差：入力画像と出力画像が一致を一致させる
αマップへの制約1：一つのレイヤーのマスクをできるだけ小さくする
αマップへの制約2：αマップが入力マスクと一致する制約（学習の序盤のみ）
8
入力画像出力画像
予測αマップ滑らかに制約をかけるための項
𝑑𝑡
𝑖
で入力マスクのエッジ部分では
損失をゼロにする

損失関数
OmniMatteモデルを5つの損失関数により学習
フロー再構成誤差：GTフロー画像と出力フロー画像を一致させる
αマップとフローの時間的一貫性：𝑡と𝑡+1のαマップの変異がフローと一致
9
GTフロー画像出力フロー画像
𝑡フレームの予測αマップ 𝑡 + 1フレームのαマップを
フローに基づいて移動

なぜこれで影響の予測ができる？
10
U-Net
背景の潜在変数はすべてのフレームで固定なため、変化している部分を表現できない。
そのため、変化している部分は背景以外のレイヤーで表現されないと画像の再構成ができない。
結果として、各レイヤーは物体とそれに対応する影響を予測するようになる。
物体ごと
に予測

実験結果（成功例）
11

実験結果（失敗例）
12
海など背景が動く場合には、物体の影響と勘違いする
背景が固定でも、カメラの位置推定の精度が悪いと失敗する

実験結果（失敗例）
13
鏡に映った人が間違った人の影響だと予測している

課題とまとめ
課題
• カメラ位置の推定が難しい場合には背景の変異が物体の影響として認識されてしまう
（論文に記載）
• ネットワークの初期で結果が大きく変わる場合がある（論文に記載）
• 角度によって見え方が変わる場合でも難しい（想像）
• 海や川など背景が動く場合でも物体の影響と分離できない（実験結果より）
まとめ
動画とその中の動的物体のマスクから、その物体が与えた影響（影、煙、波
紋など）をomnimatteとして予測する新しい問題を、アノテーションなしに解く方
法を提案した。
14

[DL輪読会]"Omnimatte: Associating Objects and Their Effects in Video"

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [DL輪読会]"Omnimatte: Associating Objects and Their Effects in Video"

Similar to [DL輪読会]"Omnimatte: Associating Objects and Their Effects in Video" (11)

More from Deep Learning JP

More from Deep Learning JP (20)

[DL輪読会]"Omnimatte: Associating Objects and Their Effects in Video"