SlideShare a Scribd company logo
第55回 コンピュータビジョン勉強会@関東 ICCV2019読み会
Copy-and-Paste Networks for Deep
Video Inpainting
@hasegawa_k35
1
紹介する論文
Copy-and-Paste Networks for Deep Video Inpainting
• 著者:Sungho Lee, Seoung Wug Oh(Yonsei University),
DaeYeun Won(Hyundai MNSOFT), Seon Joo Kim(Yonsei University)
• 一言概要:Deep Learningを使ったVideo Inpainting
• 選んだ理由:昔似たようなことをやっていたため
今年になってDeep Learningを使ったVideo Inpaintingの研究がでてきたため
2
Video Inpainting
• Image inpainting:静止画像中の欠損領域の補間
• Video inpainting:動画像中の欠損領域の補間
3
「空間的」に一貫性が取れていればOK
「空間的」に加え,「時間的」にも一貫性が
取れている必要がある
Iizuka et. al. “Globally and Locally Consistent Image Completion”, SIGGRAPH 2017
Yu et. al. “Generative image inpainting with contextual attention”, CVPR 2018
Kim et. al. “Deep Video Inpainting”, CVPR 2018
関連研究
4
Space-Time Video Completion (Wexler et. Al., CVPR/PAMI)
…全体および局所的な整合性計算,繰り返し処理による最適化をベースとしたVideo inpainting
2004
Background Inpainting for Videos with Dynamic Object and a Free-Moving Camera
(Granados et.al., ECCV)
…Homographyを用いて他フレームから欠損部分のピクセルを取得,
エネルギー計算を利用して調整
2012
Temporally Coherent Completion of Dynamic Video (Huang et. Al., SIGGRAPH ASIA/ToG)
…欠損領域の色とオプティカルフローを同時に推定することによる補間
2016
2019 Video Inpainting by Jointly Learning Temporal Structure and Spatial Details (Wang et. al., AAAI)
…Deep Learningを使った初のVideo Inpainting
時間的整合性と空間的整合性をそれぞれ取る2つのネットワークを作成
CVPR: Deep Video Inpainting[1] 他WS合わせて3本
ICCV: 本件他合わせて3本
今年だけでトップカンファレンスを
中心に10本以上のDeep Learningを
使ったVideo Inpaintingが登場
[1] Kim et.al., “Deep video inpainting”, CVPR 2019
論文概要
• 既存手法の問題点
• 計算時間が長い(主にDeep Learning以前の手法)
• 大きな物体やゆっくり動く物体に対応できない
(主にDeep Learningベースの手法)
• オプティカルフローを使って欠損領域を埋めるべき
ピクセルを決めているものが多い
• 上記のような物体を埋めるには,ターゲットフレームから
離れたフレームからピクセルを持ってくる必要がある
⇒ オプティカルフローでは対応できない
• 論文のアイディア
• アフィン変換を利用
• 離れたフレームから,ターゲットフレームに合わせた
変換を行う = 離れたフレームを利用可能
• 補間時に用いる各ピクセルに対する重みを保持する
マスクの作成
• 補間部分の空間的一貫性を向上させる
5
図:動きの遅いオブジェクトの処理例
図:提案手法のイメージ
全体像
6
①全フレームを,
ターゲットフレーム
に合わせてアフィン
変換
②ターゲットフレームに貼る
べきピクセルを決める
③②の出力をデコード
してInpainting結果を
出力
④Inpainting結果で
入力フレームを更新
Alignment network
• 概要
• 全フレームをターゲットフレームに合わせる
• ステップ
1. Encoderで入力フレーム群から特徴を抽出
2. Regressorで各フレーム-ターゲットフレーム間の
Affine行列を算出
3. 2の出力を使って各フレームをターゲット
フレームに合うように変換
• ポイント
• 欠損領域が存在してもアフィン行列の計算を行えるネットワーク
⇒ 学習時に欠損部分を無視する形でロスℒ 𝑎𝑙𝑖𝑔𝑛を計算することで対応
7
𝑿 𝑡 :ターゲットフレーム
𝑿 𝑟→𝑡 :変換後のフレーム
𝑽 𝑡 :ターゲットフレームのVisibility map
𝑽 𝑟→𝑡 :変換後のフレームのVisibility map
図:Alignment networkの構造
(1)
(2)
図:Visibility mapの例
• 概要
• EncoderとContext Matching moduleを用いて,
Inpainting用のマスクと特徴量を出力
• ステップ
1. Encoderでターゲットフレームと
変換後フレームから特徴を抽出
2. 各変換後フレーム-ターゲットフレーム間の
類似度𝜃 𝑟,𝑡
を算出
Copy network
8
𝑭 𝑡 :ターゲットフレームの特徴 𝑭 𝑟→𝑡 :変換後のフレームの特徴
図:Context Matching moduleの詳細
(3)
Copy network
3. 類似度とVisibility mapからSaliency map 𝑪 𝒎𝒂𝒕𝒄𝒉を作成
4. Saliency map𝐶 𝑚𝑎𝑡𝑐ℎから,decoder用特徴量𝐶 𝑜𝑢𝑡と
不可視領域を示すマスク𝐶 𝑚𝑎𝑠𝑘を算出
9
ポイント
(4)
(5)
(6)
(7)
Copy network
• ポイント
• 補間時に用いる各ピクセルに対する重みを保持する
マスクの作成
• 前ページ式(4),(5)より,重み = フレーム同士の類似度
• 補間時は,このマスクを利用して各ピクセルの
softmaxを計算 ⇒ Masked softmax
• 似ているフレームのピクセルを優先することにより,
補間後の画像のきれいさ(≒空間的一貫性)を
向上させている.
• 単に対応するピクセルのsoftmaxを取るだけだと,
補間部分がぼやけることがある.
10
図:SoftmaxとMasked softmaxの比較
図:Masked softmaxの計算例
Paste network
• ターゲットフレームの特徴量,Decoder用特徴量𝐶 𝑜𝑢𝑡
不可視領域を示すマスク𝐶 𝑚𝑎𝑠𝑘をDecoderに入力し,
inpaintingされたフレームを出力
• 不可視領域はDecoder中で周囲のピクセルを膨張させ
埋めている(右図の緑色部分)
• 時間的一貫性の確保
• 順方向に処理した結果と,逆方向に処理した結果を合わせて
最終結果とする.
• Inpainting結果を入力フレームに上書きし,
その後のフレームの処理で使用
⇒ 出力のクオリティ/時間的一貫性の向上
11図:Paste networkの構造
(8)
学習
12
• 以下の6つのロス関数を利用
• 欠損部分(visible)
• 欠損部分(invisible)
• 欠損部以外
• アフィン変換
• Perceptual
• スタイル変換
• Total-loss
Y𝑐𝑜𝑚𝑝 : 𝒀の欠損部分と𝑿 𝒕
の欠損部以外の
組み合わせ
𝜙 :ImageNetで学習したVGG-16の
pooling layerの出力
𝑝 :pooling index
ℒ 𝑡𝑣 :スムージングのための
total variation loss
(10)
(9)
(12)
(11)
(15)
(14)
(13)
𝐺 :Gram matrix
学習
13
• 以下の6つのロス関数を利用
• 欠損部分(visible)
• 欠損部分(invisible)
• 欠損部以外
• アフィン変換
• Perceptual
• スタイル変換
• Total-loss
Y𝑐𝑜𝑚𝑝 : 𝒀の欠損部分と𝑿 𝒕
の欠損部以外の
組み合わせ
𝜙 :ImageNetで学習したVGG-16の
pooling layerの出力
𝑝 :pooling index
ℒ 𝑡𝑣 :スムージングのための
total variation loss
(10)
(9)
(12)
(11)
(15)
(14)
(13)
画像内を以下の3つに分けて別々に計算
• 補間対象部分だが,どこかのフレームでは見えている
• 補間対象部分で.どのフレームでも隠れている
• 常に見え続けている
結果画像のクオリティアップのために,
VGG-16のpooling layerとスタイル変換[1]をロスに利用
*[1]Johnson et.al., “Perceptual losses for real-time style transfer and super-resolution”, ECCV 2016
学習データセット
• Video inpainting用のデータセット ⇒ ないから作った
• ベースとなるデータセットに,別のデータセットのマスクを重畳
• ベース
• Placeデータセット[1] ⇒ 1枚の画像をランダムにクロップ+変形させて動きを付与
• Youtubeからクロール
• マスク
• MIT Saliency Benchmark[2]
• Pascal VOC 2012[3]
14図:データセットの例
[1]Zhou et.al., “Places: A 10 million image database
for scene recognition”, PAMI 2017
[2]Bylinski et.al. “MIT Saliency Benchmark”
[3]Everingham, “The pascal visual object classes
challenge: A retrospective”, IJCV 2015
実験①
• 画質評価
• Huangらの手法(Temporally Coherent Completion of Dynamic Video[1])と,
PSNRとSSIMを比較
• 対象データセットはDAVIS dataset[3][4]
• User study
• Huangらの手法[1]とDeep Video Inpainting(VINet)[2]と本手法で,DAVIS
dataset[3][4]を対象とした出力結果を40人が順位付けし,その平均で比較
• 処理速度も評価しているので,同時に記載
15
Method PSNR↑ SSIM↓
Huang et.al. [1] 28.14 0.859
本手法 28.37 0.851
Method 平均順位 処理速度(秒)
Huang et.at.[1] 1.74 952
VINet[2] 2.08 *
本手法 1.77 27.14
* VINetのpaperでは12.5fpsと記載あり
表:画質評価結果
表:User study結果
[1]Huang et.atl., “Temporally Coherent Completion of Dynamic Video”, ToG 2016
[2]Kim et.al., “Deep video inpainting”, CVPR 2019
[3]Perazzi et.al., “A benchmark dataset and evaluation methodology for video
object segmentation”, CVPR 2016
[4]Pont-Tuset et.al., “The 2017 davis challenge on video object
segmentation”, arXiv 2017
実験結果
16
図:既存手法と提案手法の出力比較
実験②
• アプリケーション
• 露出をミスしている画像を補正し,レーン検出を実施
17
入力 検出精度
元画像(露出ミス) 46.69%
補正後 83.00%
表:レーン検出精度
図:露出補正・レーン検出結果
まとめ
• DNNベースのvideo inpainting手法を提案
• 欠損領域を,離れたフレームの対応するピクセルでcopy-and-paste
することで補間
• 最適化ベースの手法よりも定評評価で優れており,
高速に処理できることを確認
• 露出補正にも利用可能,レーン検出の精度が向上することを確認
18
感想
• 補間後のクオリティという点では,既存手法との優劣は何とも
つけづらいと感じた
• 一方,処理速度が向上するのは応用の幅が広がるため非常に有益
• クオリティを挙げるためには,例えばGANやVAE,LSTM等との組合せが
考えられるが,他の手法で取り入れられているため別の方法が必要か?
• 現在の評価手法だと明確な差がついたとは(少なくとも現状の
クオリティでは)主張しづらい ⇒ 実応用例が大事になるか?
19

More Related Content

What's hot

論文読み会(DeMoN;CVPR2017)
論文読み会(DeMoN;CVPR2017)論文読み会(DeMoN;CVPR2017)
論文読み会(DeMoN;CVPR2017)
Masaya Kaneko
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Deep Learning JP
 
[DL輪読会]RobustNet: Improving Domain Generalization in Urban- Scene Segmentatio...
[DL輪読会]RobustNet: Improving Domain Generalization in Urban- Scene Segmentatio...[DL輪読会]RobustNet: Improving Domain Generalization in Urban- Scene Segmentatio...
[DL輪読会]RobustNet: Improving Domain Generalization in Urban- Scene Segmentatio...
Deep Learning JP
 
Printing spatiallyvaryingreflectanceforreproducinghdr images
Printing spatiallyvaryingreflectanceforreproducinghdr imagesPrinting spatiallyvaryingreflectanceforreproducinghdr images
Printing spatiallyvaryingreflectanceforreproducinghdr imagesishii yasunori
 
SLAMチュートリアル大会資料(ORB-SLAM)
SLAMチュートリアル大会資料(ORB-SLAM)SLAMチュートリアル大会資料(ORB-SLAM)
SLAMチュートリアル大会資料(ORB-SLAM)
Masaya Kaneko
 
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
Kento Doi
 
CNN-SLAMざっくり
CNN-SLAMざっくりCNN-SLAMざっくり
CNN-SLAMざっくり
EndoYuuki
 
Taking a Deeper Look at the Inverse Compositional Algorithm
Taking a Deeper Look at the Inverse Compositional AlgorithmTaking a Deeper Look at the Inverse Compositional Algorithm
Taking a Deeper Look at the Inverse Compositional Algorithm
Mai Nishimura
 
20161203 cv 3_d_recon_tracking_eventcamera
20161203 cv 3_d_recon_tracking_eventcamera20161203 cv 3_d_recon_tracking_eventcamera
20161203 cv 3_d_recon_tracking_eventcamera
Kyohei Unno
 
シリコンスタジオの最新テクノロジーデモ技術解説
シリコンスタジオの最新テクノロジーデモ技術解説シリコンスタジオの最新テクノロジーデモ技術解説
シリコンスタジオの最新テクノロジーデモ技術解説Silicon Studio Corporation
 
Direct Sparse Odometryの解説
Direct Sparse Odometryの解説Direct Sparse Odometryの解説
Direct Sparse Odometryの解説
Masaya Kaneko
 
第41回関東CV勉強会 CNN-SLAM
第41回関東CV勉強会 CNN-SLAM第41回関東CV勉強会 CNN-SLAM
第41回関東CV勉強会 CNN-SLAM
邦洋 長谷川
 
Light weightbinocular sigasia2012_face
Light weightbinocular sigasia2012_faceLight weightbinocular sigasia2012_face
Light weightbinocular sigasia2012_faceishii yasunori
 
Deep SimNets
Deep SimNetsDeep SimNets
Deep SimNets
Fujimoto Keisuke
 
(文献紹介)HDR+, Night Sight
(文献紹介)HDR+, Night Sight(文献紹介)HDR+, Night Sight
(文献紹介)HDR+, Night Sight
Morpho, Inc.
 
SLAM勉強会(PTAM)
SLAM勉強会(PTAM)SLAM勉強会(PTAM)
SLAM勉強会(PTAM)
Masaya Kaneko
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)kanejaki
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
Hideki Okada
 

What's hot (18)

論文読み会(DeMoN;CVPR2017)
論文読み会(DeMoN;CVPR2017)論文読み会(DeMoN;CVPR2017)
論文読み会(DeMoN;CVPR2017)
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
[DL輪読会]RobustNet: Improving Domain Generalization in Urban- Scene Segmentatio...
[DL輪読会]RobustNet: Improving Domain Generalization in Urban- Scene Segmentatio...[DL輪読会]RobustNet: Improving Domain Generalization in Urban- Scene Segmentatio...
[DL輪読会]RobustNet: Improving Domain Generalization in Urban- Scene Segmentatio...
 
Printing spatiallyvaryingreflectanceforreproducinghdr images
Printing spatiallyvaryingreflectanceforreproducinghdr imagesPrinting spatiallyvaryingreflectanceforreproducinghdr images
Printing spatiallyvaryingreflectanceforreproducinghdr images
 
SLAMチュートリアル大会資料(ORB-SLAM)
SLAMチュートリアル大会資料(ORB-SLAM)SLAMチュートリアル大会資料(ORB-SLAM)
SLAMチュートリアル大会資料(ORB-SLAM)
 
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
 
CNN-SLAMざっくり
CNN-SLAMざっくりCNN-SLAMざっくり
CNN-SLAMざっくり
 
Taking a Deeper Look at the Inverse Compositional Algorithm
Taking a Deeper Look at the Inverse Compositional AlgorithmTaking a Deeper Look at the Inverse Compositional Algorithm
Taking a Deeper Look at the Inverse Compositional Algorithm
 
20161203 cv 3_d_recon_tracking_eventcamera
20161203 cv 3_d_recon_tracking_eventcamera20161203 cv 3_d_recon_tracking_eventcamera
20161203 cv 3_d_recon_tracking_eventcamera
 
シリコンスタジオの最新テクノロジーデモ技術解説
シリコンスタジオの最新テクノロジーデモ技術解説シリコンスタジオの最新テクノロジーデモ技術解説
シリコンスタジオの最新テクノロジーデモ技術解説
 
Direct Sparse Odometryの解説
Direct Sparse Odometryの解説Direct Sparse Odometryの解説
Direct Sparse Odometryの解説
 
第41回関東CV勉強会 CNN-SLAM
第41回関東CV勉強会 CNN-SLAM第41回関東CV勉強会 CNN-SLAM
第41回関東CV勉強会 CNN-SLAM
 
Light weightbinocular sigasia2012_face
Light weightbinocular sigasia2012_faceLight weightbinocular sigasia2012_face
Light weightbinocular sigasia2012_face
 
Deep SimNets
Deep SimNetsDeep SimNets
Deep SimNets
 
(文献紹介)HDR+, Night Sight
(文献紹介)HDR+, Night Sight(文献紹介)HDR+, Night Sight
(文献紹介)HDR+, Night Sight
 
SLAM勉強会(PTAM)
SLAM勉強会(PTAM)SLAM勉強会(PTAM)
SLAM勉強会(PTAM)
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
 

Similar to Copy and-paste networks for deep video inpainting

Unity名古屋セミナー [Shadowgun]
Unity名古屋セミナー [Shadowgun]Unity名古屋セミナー [Shadowgun]
Unity名古屋セミナー [Shadowgun]
MakotoItoh
 
[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders
[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders
[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders
Deep Learning JP
 
Core Animation 使って見た
Core Animation 使って見たCore Animation 使って見た
Core Animation 使って見た
OCHI Shuji
 
SIGGRAPH 2019 Report
SIGGRAPH 2019 ReportSIGGRAPH 2019 Report
SIGGRAPH 2019 Report
Kazuyuki Miyazawa
 
リアルタイムレイトレーシング時代を生き抜くためのデノイザー開発入門
リアルタイムレイトレーシング時代を生き抜くためのデノイザー開発入門リアルタイムレイトレーシング時代を生き抜くためのデノイザー開発入門
リアルタイムレイトレーシング時代を生き抜くためのデノイザー開発入門
Silicon Studio Corporation
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
Morpho, Inc.
 
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
Toru Tamaki
 
CG 論文講読会 2013/2/12 "A reconstruction filter for plausible motion blur"
CG 論文講読会 2013/2/12 "A reconstruction filter for plausible motion blur"CG 論文講読会 2013/2/12 "A reconstruction filter for plausible motion blur"
CG 論文講読会 2013/2/12 "A reconstruction filter for plausible motion blur"
Ryo Suzuki
 
CEDEC 2007 ゲーム開発者向け最新技術論文の解説・実装講座
CEDEC 2007 ゲーム開発者向け最新技術論文の解説・実装講座CEDEC 2007 ゲーム開発者向け最新技術論文の解説・実装講座
CEDEC 2007 ゲーム開発者向け最新技術論文の解説・実装講座
Silicon Studio Corporation
 
3DCG住宅プレゼンテーションのグローバルイルミネーションをディープラーニングで推定!
3DCG住宅プレゼンテーションのグローバルイルミネーションをディープラーニングで推定!3DCG住宅プレゼンテーションのグローバルイルミネーションをディープラーニングで推定!
3DCG住宅プレゼンテーションのグローバルイルミネーションをディープラーニングで推定!
Silicon Studio Corporation
 
Globally and Locally Consistent Image Completion
Globally and Locally Consistent Image CompletionGlobally and Locally Consistent Image Completion
Globally and Locally Consistent Image Completion
harmonylab
 
SurfaceTextureとシェーダを使って遊んでみる
SurfaceTextureとシェーダを使って遊んでみるSurfaceTextureとシェーダを使って遊んでみる
SurfaceTextureとシェーダを使って遊んでみる
Tatsuya Matsumoto
 
2012-03-08 MSS研究会
2012-03-08 MSS研究会2012-03-08 MSS研究会
2012-03-08 MSS研究会
Kimikazu Kato
 
「解説資料」MetaFormer is Actually What You Need for Vision
「解説資料」MetaFormer is Actually What You Need for Vision「解説資料」MetaFormer is Actually What You Need for Vision
「解説資料」MetaFormer is Actually What You Need for Vision
Takumi Ohkuma
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
Deep Learning JP
 
Windows 11とNPUで実現するWindowsのAI
Windows 11とNPUで実現するWindowsのAIWindows 11とNPUで実現するWindowsのAI
Windows 11とNPUで実現するWindowsのAI
Tomokazu Kizawa
 
(デ部発表用抜粋版)プログラマとデザイナが共有すべきUIに関するAndroidの10の機能
(デ部発表用抜粋版)プログラマとデザイナが共有すべきUIに関するAndroidの10の機能(デ部発表用抜粋版)プログラマとデザイナが共有すべきUIに関するAndroidの10の機能
(デ部発表用抜粋版)プログラマとデザイナが共有すべきUIに関するAndroidの10の機能
youten (ようてん)
 
初心者向けAndroidゲーム開発ノウハウ
初心者向けAndroidゲーム開発ノウハウ初心者向けAndroidゲーム開発ノウハウ
初心者向けAndroidゲーム開発ノウハウKentarou Mukunasi
 
[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning
Deep Learning JP
 
UE4におけるエフェクトの基本戦略事例 後半
UE4におけるエフェクトの基本戦略事例  後半UE4におけるエフェクトの基本戦略事例  後半
UE4におけるエフェクトの基本戦略事例 後半
エピック・ゲームズ・ジャパン Epic Games Japan
 

Similar to Copy and-paste networks for deep video inpainting (20)

Unity名古屋セミナー [Shadowgun]
Unity名古屋セミナー [Shadowgun]Unity名古屋セミナー [Shadowgun]
Unity名古屋セミナー [Shadowgun]
 
[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders
[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders
[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders
 
Core Animation 使って見た
Core Animation 使って見たCore Animation 使って見た
Core Animation 使って見た
 
SIGGRAPH 2019 Report
SIGGRAPH 2019 ReportSIGGRAPH 2019 Report
SIGGRAPH 2019 Report
 
リアルタイムレイトレーシング時代を生き抜くためのデノイザー開発入門
リアルタイムレイトレーシング時代を生き抜くためのデノイザー開発入門リアルタイムレイトレーシング時代を生き抜くためのデノイザー開発入門
リアルタイムレイトレーシング時代を生き抜くためのデノイザー開発入門
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
 
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
 
CG 論文講読会 2013/2/12 "A reconstruction filter for plausible motion blur"
CG 論文講読会 2013/2/12 "A reconstruction filter for plausible motion blur"CG 論文講読会 2013/2/12 "A reconstruction filter for plausible motion blur"
CG 論文講読会 2013/2/12 "A reconstruction filter for plausible motion blur"
 
CEDEC 2007 ゲーム開発者向け最新技術論文の解説・実装講座
CEDEC 2007 ゲーム開発者向け最新技術論文の解説・実装講座CEDEC 2007 ゲーム開発者向け最新技術論文の解説・実装講座
CEDEC 2007 ゲーム開発者向け最新技術論文の解説・実装講座
 
3DCG住宅プレゼンテーションのグローバルイルミネーションをディープラーニングで推定!
3DCG住宅プレゼンテーションのグローバルイルミネーションをディープラーニングで推定!3DCG住宅プレゼンテーションのグローバルイルミネーションをディープラーニングで推定!
3DCG住宅プレゼンテーションのグローバルイルミネーションをディープラーニングで推定!
 
Globally and Locally Consistent Image Completion
Globally and Locally Consistent Image CompletionGlobally and Locally Consistent Image Completion
Globally and Locally Consistent Image Completion
 
SurfaceTextureとシェーダを使って遊んでみる
SurfaceTextureとシェーダを使って遊んでみるSurfaceTextureとシェーダを使って遊んでみる
SurfaceTextureとシェーダを使って遊んでみる
 
2012-03-08 MSS研究会
2012-03-08 MSS研究会2012-03-08 MSS研究会
2012-03-08 MSS研究会
 
「解説資料」MetaFormer is Actually What You Need for Vision
「解説資料」MetaFormer is Actually What You Need for Vision「解説資料」MetaFormer is Actually What You Need for Vision
「解説資料」MetaFormer is Actually What You Need for Vision
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
 
Windows 11とNPUで実現するWindowsのAI
Windows 11とNPUで実現するWindowsのAIWindows 11とNPUで実現するWindowsのAI
Windows 11とNPUで実現するWindowsのAI
 
(デ部発表用抜粋版)プログラマとデザイナが共有すべきUIに関するAndroidの10の機能
(デ部発表用抜粋版)プログラマとデザイナが共有すべきUIに関するAndroidの10の機能(デ部発表用抜粋版)プログラマとデザイナが共有すべきUIに関するAndroidの10の機能
(デ部発表用抜粋版)プログラマとデザイナが共有すべきUIに関するAndroidの10の機能
 
初心者向けAndroidゲーム開発ノウハウ
初心者向けAndroidゲーム開発ノウハウ初心者向けAndroidゲーム開発ノウハウ
初心者向けAndroidゲーム開発ノウハウ
 
[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning
 
UE4におけるエフェクトの基本戦略事例 後半
UE4におけるエフェクトの基本戦略事例  後半UE4におけるエフェクトの基本戦略事例  後半
UE4におけるエフェクトの基本戦略事例 後半
 

Recently uploaded

Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
嶋 是一 (Yoshikazu SHIMA)
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
Toru Tamaki
 
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobodyロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
azuma satoshi
 
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライドHumanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
tazaki1
 
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMMハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
osamut
 
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
Osaka University
 

Recently uploaded (7)

Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
 
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
 
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobodyロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
 
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライドHumanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
 
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMMハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
 
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
 

Copy and-paste networks for deep video inpainting

  • 2. 紹介する論文 Copy-and-Paste Networks for Deep Video Inpainting • 著者:Sungho Lee, Seoung Wug Oh(Yonsei University), DaeYeun Won(Hyundai MNSOFT), Seon Joo Kim(Yonsei University) • 一言概要:Deep Learningを使ったVideo Inpainting • 選んだ理由:昔似たようなことをやっていたため 今年になってDeep Learningを使ったVideo Inpaintingの研究がでてきたため 2
  • 3. Video Inpainting • Image inpainting:静止画像中の欠損領域の補間 • Video inpainting:動画像中の欠損領域の補間 3 「空間的」に一貫性が取れていればOK 「空間的」に加え,「時間的」にも一貫性が 取れている必要がある Iizuka et. al. “Globally and Locally Consistent Image Completion”, SIGGRAPH 2017 Yu et. al. “Generative image inpainting with contextual attention”, CVPR 2018 Kim et. al. “Deep Video Inpainting”, CVPR 2018
  • 4. 関連研究 4 Space-Time Video Completion (Wexler et. Al., CVPR/PAMI) …全体および局所的な整合性計算,繰り返し処理による最適化をベースとしたVideo inpainting 2004 Background Inpainting for Videos with Dynamic Object and a Free-Moving Camera (Granados et.al., ECCV) …Homographyを用いて他フレームから欠損部分のピクセルを取得, エネルギー計算を利用して調整 2012 Temporally Coherent Completion of Dynamic Video (Huang et. Al., SIGGRAPH ASIA/ToG) …欠損領域の色とオプティカルフローを同時に推定することによる補間 2016 2019 Video Inpainting by Jointly Learning Temporal Structure and Spatial Details (Wang et. al., AAAI) …Deep Learningを使った初のVideo Inpainting 時間的整合性と空間的整合性をそれぞれ取る2つのネットワークを作成 CVPR: Deep Video Inpainting[1] 他WS合わせて3本 ICCV: 本件他合わせて3本 今年だけでトップカンファレンスを 中心に10本以上のDeep Learningを 使ったVideo Inpaintingが登場 [1] Kim et.al., “Deep video inpainting”, CVPR 2019
  • 5. 論文概要 • 既存手法の問題点 • 計算時間が長い(主にDeep Learning以前の手法) • 大きな物体やゆっくり動く物体に対応できない (主にDeep Learningベースの手法) • オプティカルフローを使って欠損領域を埋めるべき ピクセルを決めているものが多い • 上記のような物体を埋めるには,ターゲットフレームから 離れたフレームからピクセルを持ってくる必要がある ⇒ オプティカルフローでは対応できない • 論文のアイディア • アフィン変換を利用 • 離れたフレームから,ターゲットフレームに合わせた 変換を行う = 離れたフレームを利用可能 • 補間時に用いる各ピクセルに対する重みを保持する マスクの作成 • 補間部分の空間的一貫性を向上させる 5 図:動きの遅いオブジェクトの処理例 図:提案手法のイメージ
  • 7. Alignment network • 概要 • 全フレームをターゲットフレームに合わせる • ステップ 1. Encoderで入力フレーム群から特徴を抽出 2. Regressorで各フレーム-ターゲットフレーム間の Affine行列を算出 3. 2の出力を使って各フレームをターゲット フレームに合うように変換 • ポイント • 欠損領域が存在してもアフィン行列の計算を行えるネットワーク ⇒ 学習時に欠損部分を無視する形でロスℒ 𝑎𝑙𝑖𝑔𝑛を計算することで対応 7 𝑿 𝑡 :ターゲットフレーム 𝑿 𝑟→𝑡 :変換後のフレーム 𝑽 𝑡 :ターゲットフレームのVisibility map 𝑽 𝑟→𝑡 :変換後のフレームのVisibility map 図:Alignment networkの構造 (1) (2) 図:Visibility mapの例
  • 8. • 概要 • EncoderとContext Matching moduleを用いて, Inpainting用のマスクと特徴量を出力 • ステップ 1. Encoderでターゲットフレームと 変換後フレームから特徴を抽出 2. 各変換後フレーム-ターゲットフレーム間の 類似度𝜃 𝑟,𝑡 を算出 Copy network 8 𝑭 𝑡 :ターゲットフレームの特徴 𝑭 𝑟→𝑡 :変換後のフレームの特徴 図:Context Matching moduleの詳細 (3)
  • 9. Copy network 3. 類似度とVisibility mapからSaliency map 𝑪 𝒎𝒂𝒕𝒄𝒉を作成 4. Saliency map𝐶 𝑚𝑎𝑡𝑐ℎから,decoder用特徴量𝐶 𝑜𝑢𝑡と 不可視領域を示すマスク𝐶 𝑚𝑎𝑠𝑘を算出 9 ポイント (4) (5) (6) (7)
  • 10. Copy network • ポイント • 補間時に用いる各ピクセルに対する重みを保持する マスクの作成 • 前ページ式(4),(5)より,重み = フレーム同士の類似度 • 補間時は,このマスクを利用して各ピクセルの softmaxを計算 ⇒ Masked softmax • 似ているフレームのピクセルを優先することにより, 補間後の画像のきれいさ(≒空間的一貫性)を 向上させている. • 単に対応するピクセルのsoftmaxを取るだけだと, 補間部分がぼやけることがある. 10 図:SoftmaxとMasked softmaxの比較 図:Masked softmaxの計算例
  • 11. Paste network • ターゲットフレームの特徴量,Decoder用特徴量𝐶 𝑜𝑢𝑡 不可視領域を示すマスク𝐶 𝑚𝑎𝑠𝑘をDecoderに入力し, inpaintingされたフレームを出力 • 不可視領域はDecoder中で周囲のピクセルを膨張させ 埋めている(右図の緑色部分) • 時間的一貫性の確保 • 順方向に処理した結果と,逆方向に処理した結果を合わせて 最終結果とする. • Inpainting結果を入力フレームに上書きし, その後のフレームの処理で使用 ⇒ 出力のクオリティ/時間的一貫性の向上 11図:Paste networkの構造 (8)
  • 12. 学習 12 • 以下の6つのロス関数を利用 • 欠損部分(visible) • 欠損部分(invisible) • 欠損部以外 • アフィン変換 • Perceptual • スタイル変換 • Total-loss Y𝑐𝑜𝑚𝑝 : 𝒀の欠損部分と𝑿 𝒕 の欠損部以外の 組み合わせ 𝜙 :ImageNetで学習したVGG-16の pooling layerの出力 𝑝 :pooling index ℒ 𝑡𝑣 :スムージングのための total variation loss (10) (9) (12) (11) (15) (14) (13) 𝐺 :Gram matrix
  • 13. 学習 13 • 以下の6つのロス関数を利用 • 欠損部分(visible) • 欠損部分(invisible) • 欠損部以外 • アフィン変換 • Perceptual • スタイル変換 • Total-loss Y𝑐𝑜𝑚𝑝 : 𝒀の欠損部分と𝑿 𝒕 の欠損部以外の 組み合わせ 𝜙 :ImageNetで学習したVGG-16の pooling layerの出力 𝑝 :pooling index ℒ 𝑡𝑣 :スムージングのための total variation loss (10) (9) (12) (11) (15) (14) (13) 画像内を以下の3つに分けて別々に計算 • 補間対象部分だが,どこかのフレームでは見えている • 補間対象部分で.どのフレームでも隠れている • 常に見え続けている 結果画像のクオリティアップのために, VGG-16のpooling layerとスタイル変換[1]をロスに利用 *[1]Johnson et.al., “Perceptual losses for real-time style transfer and super-resolution”, ECCV 2016
  • 14. 学習データセット • Video inpainting用のデータセット ⇒ ないから作った • ベースとなるデータセットに,別のデータセットのマスクを重畳 • ベース • Placeデータセット[1] ⇒ 1枚の画像をランダムにクロップ+変形させて動きを付与 • Youtubeからクロール • マスク • MIT Saliency Benchmark[2] • Pascal VOC 2012[3] 14図:データセットの例 [1]Zhou et.al., “Places: A 10 million image database for scene recognition”, PAMI 2017 [2]Bylinski et.al. “MIT Saliency Benchmark” [3]Everingham, “The pascal visual object classes challenge: A retrospective”, IJCV 2015
  • 15. 実験① • 画質評価 • Huangらの手法(Temporally Coherent Completion of Dynamic Video[1])と, PSNRとSSIMを比較 • 対象データセットはDAVIS dataset[3][4] • User study • Huangらの手法[1]とDeep Video Inpainting(VINet)[2]と本手法で,DAVIS dataset[3][4]を対象とした出力結果を40人が順位付けし,その平均で比較 • 処理速度も評価しているので,同時に記載 15 Method PSNR↑ SSIM↓ Huang et.al. [1] 28.14 0.859 本手法 28.37 0.851 Method 平均順位 処理速度(秒) Huang et.at.[1] 1.74 952 VINet[2] 2.08 * 本手法 1.77 27.14 * VINetのpaperでは12.5fpsと記載あり 表:画質評価結果 表:User study結果 [1]Huang et.atl., “Temporally Coherent Completion of Dynamic Video”, ToG 2016 [2]Kim et.al., “Deep video inpainting”, CVPR 2019 [3]Perazzi et.al., “A benchmark dataset and evaluation methodology for video object segmentation”, CVPR 2016 [4]Pont-Tuset et.al., “The 2017 davis challenge on video object segmentation”, arXiv 2017
  • 17. 実験② • アプリケーション • 露出をミスしている画像を補正し,レーン検出を実施 17 入力 検出精度 元画像(露出ミス) 46.69% 補正後 83.00% 表:レーン検出精度 図:露出補正・レーン検出結果
  • 18. まとめ • DNNベースのvideo inpainting手法を提案 • 欠損領域を,離れたフレームの対応するピクセルでcopy-and-paste することで補間 • 最適化ベースの手法よりも定評評価で優れており, 高速に処理できることを確認 • 露出補正にも利用可能,レーン検出の精度が向上することを確認 18
  • 19. 感想 • 補間後のクオリティという点では,既存手法との優劣は何とも つけづらいと感じた • 一方,処理速度が向上するのは応用の幅が広がるため非常に有益 • クオリティを挙げるためには,例えばGANやVAE,LSTM等との組合せが 考えられるが,他の手法で取り入れられているため別の方法が必要か? • 現在の評価手法だと明確な差がついたとは(少なくとも現状の クオリティでは)主張しづらい ⇒ 実応用例が大事になるか? 19