!"#$"%&'#()(%&*+%
,-.)(%/)0-12#3%415-#12#16
大谷碧生,大見一樹(名工大玉木研)
英語論文紹介 !"!#$%$##
!"#$%&'()*#+#,'!+-)"'./0)+'1)#-,'2)-$&)+'!3+)4)5,'
6)7#8+)'9#8+),'6+)7#+'./0)+':#$4)$
;<6='>?>?
従来のインペインティング手法
nそもそもインペインティングとは
• マスクのかかった領域を修復するタスク
n2%0)-8#@'A-B)#-8#-3
• マスクされた領域を付近の適したピクセル値で埋める
• 顔のような繰り返しのないユニークなパターンでは失敗
n2#-35%CB)$$C#-D%+%-@%
• マスク画像とマスクされていないペア画像から学習
• 学習した生成器を使って復元画像を生成
nA8%+)8#"%'#-D%+%-@%
• E!Fのような生成モデルを事前に学習
• 生成モデルに与えたときに画像復元できるGベクトルを反復推論
(Barnes+, ACM2009)
HPathak+, CVPR2016I
G D
Real
or
Fake
−
��
�
−
���
�
�
!"#$%&'()*+,-./0
!"#$%"&'# !()#$#(*#のベースライン
nGの推論方法
nペイント画像の生成
n欠点
• 推論時間が長い
Μ = " 1 ∶ マスクされているピクセル
0 ∶ マスクされていないピクセル
Ι !"原画像
𝐼! !"マスク画像 #"""""""""""""""""$
% !"事前に学習された生成器
マスク画像から+を推測
n𝑃!を学習することでマスク画像 H𝐼"I'からGを推測する
n2B)8#)55J'!K)B8#"%';L-8%M8/)5'(L$$
• AKから予測したGを生成器にかけてできた画像と正解画像のNOノルム
• マスクの境界付近のピクセルを重要視するために重みづけ
ℓ = ℓ# + ℓ$
損失関数
n6*L8LC+%)5#$0'(L$$
n最終的な損失関数
nE+)K#%-8'P#DD%+%-@%'(L$$
• 生成画像の分布を実画像の分布に近づける
• 隣り合うピクセルとの変化量の差
フレームワーク
𝑧! !"個々のフレーム
から推測した&
𝑧" !"'()*にかけ
フレーム間を考慮した&
§ フレーム間を考慮した損失関数
学習の流れ
OQ ベクトルから画像を生成するEの学習
>Q マスク画像からベクトルを予測する6の学習
RQ Eと6を使って推論
,"$-*"-$%./0$&1$2の追加
n28+/@8/+)5'6+#L+$
• ペイントされるオブジェクトの姿勢やサイズを調整
• 顔のランドマークを28+/@8/+)5'6+#L+$として付加
nランドマークの推定
• D)@#)5'&%JBL#-8')5#3-0%-8'H!K+#)-S,'A;;<>?OTI'を使用
• 検出したランドマークのうちマスク領域内のものを削除
• 残ったランドマークからマスク領域内のランドマークを推定
実験 (単一画像のインペインティング)
n#8%+)8#"%C#-D%+%-@%と比較
• データセット
• 2<UF'H.)++)$S,'A;(=>?OVI'
• ;)+$'H.+)/$%S,'>?ORI'
• ;%5%7!'H(#/S,'>?OWI
• フレームワーク
• X%*らによって提案された手法
• 評価指標
• 62F=
• YAP'HU%/$%5S,'FA62>?OTI
n$#-35%CB)$$C#-D%+%-@%と比較
• データセット
• ;%5%7!CUZ'H(#/S,'>?OWI'
• A0)3%F%8
• フレームワーク
• 6A;'H[*%-3S,';<6=>?OI
• EA6'HX/S,';<6=>?OVI
• 9;C;FF'H])-3S,'F%/+A62>?OVI
• 評価指標
• YAP'HU%/$%5S,'FA62>?OTI
実験 (単一画像のインペインティング)
nB+%K#@8#-3'-L#$%'B+#L+の重要性
• #8%+)8#"%C#-D%+%-@%の特徴
• マスク画像からノイズの事前予測を推定するメカニズムがないので,初期解が実
際のデータから大きく外れて反復推論に時間がかかる
n28+/@8/)5 6+#L+$の重要性
• 頭部のポーズと顔の表情
• 28+/@8/)5 6+#L+$により制御
• 性別や肌の質感などの外見的要素
• Gベクトルによって制御
マスク画像
#8%+)8#"%C#-D%+%-@%の初期解
$#-35%CB)$$の解
Figure 5: Benefit of pro
ment. For each triad, first
solution by ‘iterative-inferen
single-pass solution. Initial s
and thus requires prohibitive
Figure 5: Benefit of proposed noise pr
ment. For each triad, first column is mas
solution by ‘iterative-inference’ baseline o
single-pass solution. Initial solutions of Ye
taset averaged over different mask-to-frame ratios between 10%-50%. Lower FID means
d [10] CombCN [40] Proposed
MH
z MH
z+S MH
z+L MH
z+S+L
0 0.742 0.738 0.710 0.680 0.660
Table 4: Comparison of inpainting inference time (in ms). We dramatically im-
prove the inference of our starting iterative baseline of Yeh et al. [45]. Our run time
is also comparable with contemporary ‘single-pass-inference’ methods of PIC [49],
GIP [47] and MC-CNN [42]. Note, at 256×256 resolution, we are refering to the
‘BigGAN’ generator network.
Res Yeh et al. PIC GIP MC-CNN
Mz
(Ours)
Mz+S
(Ours)
64X64 2175 - - - 2.7 2.8
128X128 10750 - - 11.0 13.2
256X256 Not Converge 70 30 50 68 75
&"#$%"&'#3&()#$#(*#との比較
n#-B)#-8#-3の推論時間
• ^_×^_では約TV?倍スピードアップ
• O>V×O>Vでは約V>?倍スピードアップ
3: Grouped noise prior learning with a combined LSTM-CNN framework.
n means parameters to update.
of W frames at a time. LSTM network has a hid-
e, ht
, to summarize information observed upto that
ep, t. The hidden state is updated after looking at the
s hidden state and the current masked image (with
l structural priors), leading to temporally coherent
ructions.
3 shows our LSTM based framework for jointly re-
1 2 W
Figure 4: (a:) Refinement of initial noisy landmark detection by Bulat et al.
[7] on masked image. Note that our refinement stage rectifies even the landmarks
on unmasked regions; (b) Comparing Relative Localization Error of facial keypoints
detection on LS3D-W test set with 50% skin pixels masked.
Table 1: Comparison with the baseline iterative-inference inpainting baseline of
Yeh et al [45] at different rates of hole-to-image ratio. Lower FID indicates more
visually plausible reconstructions.
Method → Metric SVHN Cars CelebA
10% 40% 10% 40% 10% 40%
Yeh et al. → PSNR 21.3 16.5 15.1 12.2 23.8 20.1
Ours (Mz) → PSNR 21.1 17.0 14.8 12.5 23.4 20.3
Ours (Mz+S ) → PSNR - - - - 24.1 21.7
Yeh et al. et al. → FID 3.9 4.8 4.5 5.4 5.8 6.8
Ours (Mz) → FID 3.6 4.3 4.1 5.0 5.1 6.7
Ours(Mz+S ) → FID - - - - 4.9 6.0
n62F=とYAPの比較
• 62F=
• さほど良い結果が得られなかった
• YAP
• 一貫して低い値を取り優れている
+,-./,+0-1+23-.-24- 5+267-18/551+23-.-24-
単位!"#$
2&(4.#35%223&()#$#(*#との比較
nA0)3%F%8
• :#3E!F'H:+L@&S,'A;(=>?OIは:)8@*FL+0)5#G)8#L-を使用
• マスクされたA0)3%F%8からクラスラベルを予測するネットワークを訓練
n結果
• ;%5%7CUZでは同程度の性能
• A0)3%F%8では性能向上
Table 2: Comparing FID metric of different inpainting methods on 256X256
resolution images of CelebA-HQ and ImageNet datasets. We report performances on
masks of 96x96 and 128x128 at random locations. Lower FID metric is better.
Methods CelebA-HQ ImageNet
Holes→ 96x96 128x128 96x96 128x128
GIP 4.9 11.2 8.7 23.3
PIC 4.0 9.1 7.6 38.2
MC-CNN 4.1 10.0 8.0 28.1
Ours (MH
z ) 4.1 9.2 - -
Ours (MH
z+S) 3.8 8.5 - -
Ours (MH
z )
(Actual Label)
- - 4.5 14.5
Ours (MH
z )
(Predicted Label)
- - 6.5 17.8
ed Semantic Inpainting
Agrawal1
, Pabitra Mitra1
, Prabir Kumar Biswas1
logy Kharagpur, 2
Microsoft
サイズが,12×,12の画像に対して3456748749したときの
:3;の値
マスクされた画像からインペインティングの例
実験 (ビデオのインペインティング)
nデータセット
• Y)@%YL+%-$#@$ H2)0#S,'>?O^I
• ビデオクリップからR>フレームごとにデータサンプルを作成
• 顔を真ん中にしてO>V×O>Vにトリミング H;*)-3S,'A;;<>?OI
• `?QRW5,'?QW5a'の範囲でランダムな四角形のマスクで訓練
nフレームワーク
• ;L07;F'H])-3S,'!!!A>?OI
• RPE)8%K'H;*)-3S,'A;;<>?OI
• (Eb29'H;*)-3S,':9<;>?OI
n評価指標
• "#K%LCYAPH])-3S,'>?OVI
Nisarg Kothari
ndk@google.com
Joonseok Lee
joonseok@google.com
Paul Natsev
natsev@google.com
Balakrishnan Varadarajan
balakrishnanv@google.com
Sudheendra Vijayanarasimhan
svnaras@google.com
Google Research
uter Vision are attributed to
ackages for Machine Learn-
ware have reduced the bar-
aches at scale. It is possible
ples within a few days. Al-
mage understanding, such as
e video classification datasets. (Sami+, 2016)
結果 (ビデオのインペインティング)
n結果
• 提案手法の複合モデルは空間次元を使うモデルと同程度の性能
• 提案手法の単一画像モデルの𝛭𝓏
ℋでさえ競合する単一モデルより優れた性能
• 構造事前分布を組み込んだ𝛭𝓏'(
ℋ
,'(2b9を組み込んだ𝛭𝓏')
ℋ
は性能向上
• 𝛭𝓏'(')
ℋ
は提案手法の中で最も良い性能
• 𝛭𝓏'(')
ℋ
は(E929とRPE)8%Kと同程度の性能
ble 3: Video FID metric by different inpainting methods on FaceForensics video dataset averaged over different mask-to-frame ratios between 10%-50%. Lower FID m
r perceptual video quality.
Yeh et al. [45] GLCIC [21] GIP [47] LGTSM [9] 3DGated [10] CombCN [40] Proposed
MH
z MH
z+S MH
z+L MH
z+S+L
0.781 0.762 0.751 0.651 0.670 0.742 0.738 0.710 0.680 0.660
マスク領域がフレームの.-から1-<のデータに対しての=7>#?@:3;の値
まとめ
n推論時間を短縮する目的で,反復的推論フレームワークを再検討
nノイズの事前学習により約V??倍のスピードアップを実現
nビデオのインペインティングためにモデルを拡張し改善を実現
nインペインティングを潜在的な事前情報の探索として捉える新たな観点を提示

文献紹介:Prior Guided GAN Based Semantic Inpainting