論文紹介
第31回関西CVPRML勉強会
大阪府立大学 知的信号処理研究グループ
B4 常川翔平
1
2
今回紹介する論文
Image Super-Resolution Using Deep
Convolutional Networks
Waifu 2xの元論文!
3
4
目次
・概要
・提案手法
・実験と結果
・まとめ
5
概要
従来研究の問題点
・3チャンネル同時の画像処理が困難
・多くの最適化問題を解決する必要性
Convolutional Neural Networkを用いた超解像で解決
6
概要
この論文における新規性
・Convolutional Neural Network を用いた学習型超解像
・3チャンネル同時に処理が可能
・オンラインで実用時間で運用できる速度が出る
7
目次
・概要
・提案手法
・実験と結果
・まとめ
8
提案手法
9
提案手法
以下の4つから構成される
・Preprocessing
・Patch extraction and representation
・Non-linear mapping
・Reconstruction
4つを通して低解像度画像Yを元の高解像度画像X
に極めて近い画像F(Y)に変換する
10
提案手法
Preprocessing
バイキュービック
アップサンプリング
出力したい高解像度画像と
サイズを合わせるため
修正したい
画像
拡大された
画像
11
提案手法(再掲)
12
提案手法
Patch extraction and representation
・フィルタサイズ :f1×f1=9×9
・中間層1厚み :𝑛1
・活性化関数 :ReLU
低解像度画像
中間層1
13
提案手法
Patch extraction and representation
𝑛1
低解像度画像
中間層1
𝑛1=フィルタの枚数
14
・フィルタサイズ :f1×f1=9×9
・中間層1厚み :𝑛1
・活性化関数 :ReLU
提案手法
Patch extraction and representation
𝑛1次元
バイアス項
入力された
低解像度画像
𝑊1 = c ∗ 𝑓1 ∗ 𝑓1 ∗ 𝑛1
𝑐:画像の色の数
(ex.RGB=3)
𝑓1 ∗ 𝑓1 :9*9サイズの
フィルタ
𝑛1:フィルタの枚数
𝑓1
𝑓1
全てのピクセル
に値が入ってい
るベクトル
15
提案手法(再掲)
16
Non-linear mapping
提案手法
・フィルタサイズ :f2*f2=1*1
・中間層2厚み :𝑛2
・活性化関数 :ReLU
𝑛2
中間層1 中間層2
+
+
17
提案手法
𝑊2 = 𝑛1 ∗ 𝑓2 ∗ 𝑓2 ∗ 𝑛2
𝑓2 ∗ 𝑓2 :1×1サイズの
フィルタ
𝑛2:フィルタの枚数
𝑛1:フィルタの枚数
𝑛2次元
バイアス項
学習した中間層1
の値
𝑓2
𝑓2
ベクトル
z
Non-linear mapping
18
提案手法(再掲)
19
提案手法
Reconstruction
・フィルタサイズ :f3×f3=5×5
+
中間層2
処理後画像
20
提案手法
𝑊3 = 𝑛2 ∗ 𝑓3 ∗ 𝑓3 ∗ 𝑐
𝑐:画像の色の数
(ex.RGB=3)
𝑓3 ∗ 𝑓3 :フィルタ
𝑛2:フィルタの枚数
𝑐次元の
バイアス項
学習した中間層2
の値
𝑓3
𝑓3
全てのピクセル
に値が入ってい
るベクトル
Reconstruction
21
提案手法
フィルタとバイアスの初期化
・フィルタ 𝑓𝑖 ∗ 𝑓𝑖(𝑖 = 1,2,3):
ガウス分布から平均が0,標準偏差が0.001になるよう
ランダムに決定
・バイアス𝐵𝑖 (𝑖 = 1,2,3):
0を代入する
22
提案手法
トレーニング方法
Θ={𝑊1, 𝑊2, 𝑊3, 𝐵1, 𝐵2, 𝐵3}
を表す変数の集まり
𝑖番目の正解画像
𝑖番目の提案手法
修正後画像
学習画像枚数
23
提案手法
トレーニング方法
更新する値
更新するために
加える値
24
提案手法
トレーニング方法
学習係数
□の項をどれ
だけ反映させる
かを決める値
Δ𝑖の値を90%
次のΔ𝑖+1項に
反映させること
を意味する
𝐿 Θ を𝑊𝑖
𝑙
で
偏微分した値
25
提案手法
層①のフィルタのトレーニング結果
学習されたフィルタにも特徴が見られる
26
提案手法
異なる角度での
エッジ検出器の
役割
層①のフィルタのトレーニング結果
ラプラシアンフィルタ
とガウシアンフィルタ
の役割
テクスチャ抽出の役割
27
目次
・概要
・提案手法
・実験と結果
・まとめ
28
実験と結果
従来手法5種と提案手法をPSNR値と処理時間で比較
-SC :sparse coding-based method
-NE+LLE:neighbor embedding + locally linear
embedding method
-ANR :Anchored Neighborhood Regression method
-A+ :Adjusted Anchored Neighborhood Regression
method
-KK
29
実験と結果
30
実験と結果
31
実験と結果
32
実験と結果
33
実験と結果
34
目次
・概要
・提案手法
・実験と結果
・まとめ
35
まとめ
・早く処理を終えることができ、良い結果を得ることが出来る
・学習画像の枚数によっては従来研究に負けることがある
・多層構造にしすぎると結果が悪くなることがある
・3チャンネル(YCrCb,RGB)を同時に処理できる
・ノイズ除去も行なうことが可能
36
37
以下資料
実験と結果①
提案手法とSC法、Bicubic法をPSNR値で比較
-SC法(Sparse Coding Method):
従来手法でも良い結果を出す超解像手法
-Bicubic法:
単純な補完による拡大処理
-PSNR:
画像の評価関数.値が大きいほど良い.
38
実験と結果①
39
実験と結果②
学習画像の枚数を変化させた際のPSNR値の比較
395,909枚の画像からなるILSVRC 2013 ImageNetを
33×33のサイズで切り出して抽出した、約500万枚
の小さな画像からなるデータセット
91枚の画像からなるデータセットを14×14のサイズ
で切り出して抽出した、24,800枚の小さな画像から
なるデータセット
40
実験と結果②
ImageNetが優位
91image
が優位
41
実験と結果②
・トレーニング画像の枚数を増やす
○PSNR値が良くなる
×Back Propagationの収束が遅くなる
42
実験と結果③
フィルタの枚数を変化させた際のPSNR値と処理時間
※Space Coding MethodのPSNR:31.42
43
実験と結果③
・フィルタ枚数を増やす
○良いPSNR値の画像が出力される
×処理時間がかかる
・全ての場合でSC法より良い結果がでる
44
実験と結果④
非線形マッピングの際にフィルタサイズを変化させた
ときの結果の違い
フィルタサイズ:1*1 フィルタサイズ:3*3 フィルタサイズ:5*5
中間層1 層2 層1 層2 層1 層2
45
実験と結果④
46
実験と結果④
・フィルタサイズを大きくする
○PSNR値が良くなる
×収束にかなり時間がかかる
パラメータの数が段違いに増える
9-1-5の時 8,032個
9-3-5の時 24,416個
9-5-5の時 57,184個
47
実験と結果⑤
学習する層を増やしたときの結果の違い
学習層:2層
フィルタサイズ:
f1=9*9 f2=□*□ f3=5*5
*□は可変
層の厚み:
𝑛1=64 𝑛2=32
n1 n2
48
実験と結果⑤
フィルタサイズ:
f1=9*9 f2=□*□ f22=1*1
f3=5*5
*□は可変
層の厚み:
𝑛1=64 𝑛2=32 𝑛22=16
n2n1 n22
49
学習層:3層
学習する層を増やしたときの結果の違い
実験と結果⑤
中間のフィルタサイズ:□=1 50
実験と結果⑤
中間のフィルタサイズ:□=3 51
実験と結果⑤
中間のフィルタサイズ:□=5
3層と4層構造の間
に大きな差がある
52
実験と結果⑤
・中間層を増やす
×処理時間がかかる
×あまりよいPSNR値が得られない
53
実験と結果⑥
実験⑤に加え、
-𝑛22層のフィルタ枚数 16枚→32枚
-中間層 3層→4層
-𝑛22層のフィルタサイズ変更
-𝑛2層のフィルタサイズ変更
54
実験と結果⑥
55
実験と結果⑥
56
実験と結果⑥
・層の数を増やす
×収束が遅くなる
×良い結果が得られない
・ 𝑛22層のフィルタサイズを大きくする(1)
×良い結果を得られない
・ 𝑛2層のフィルタサイズを小さくする
○(1)より良い結果が出る
×学習層が2層の方が良い結果がでる
57
実験と結果⑦
異なる3つのデータセットを用いた場合の実験結果の変化
BSD200 dataset
Set14 dataset
Set5 dataset
58
実験と結果⑦ Set14 dataset
59
実験と結果⑦ BSD200 dataset
60
実験と結果⑦ Set5 dataset
61
実験と結果⑧
・IFCとNQMが今回の評価手法として適していない
・学習画像の枚数
多い →提案手法が有利
少ない→従来手法が有利
62
実験と結果⑧
3チャンネル(YCbCr,RGB)処理した場合の結果の変化
63
実験と結果⑧
・YCbCrよりもRGBの画像を処理に向いている
・YCbCrを全てプレトレーニングすると結果が
Bicubic手法よりも悪くなる
64

関西CVPRML勉強会資料20150627

Editor's Notes

  • #60 noise quality measure  namely information fidelity criterion