SlideShare a Scribd company logo
1 of 41
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
超解像技術の話
~arXiv:1808.03344v1を起点に~
エコモット株式会社 庄内道博
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
従来のSISRの問題点
• 不明確な定義
• LR空間とHR空間の間で開発されるマッピング
• 非効率性
• 大量の生データを使った複雑な高次元マッピング
• 最近のDLベースSISR
• LR空間ーHR空間の効率的で高レベルな抽象化
• 定量的定性的な改善がみられる
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
焦点
• データ前処理・・・DataAugumentation
• モデルの訓練技術・・・Adam, PReLU
• NNアーキテクチャ
• 最適化
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
SISR
• 超解像とは
• 同じシーンの1つ以上の低解像度観測から高解像度画像を復元するタスク
• SISR(入力数が1)とMISR(入力数が2以上)
• SISRの方が難しい
• 1つの入力LRは複数のHR解の可能性がある
• 今までのSISRアルゴリズム
• 補間ベース ・・・ 〇非常に高速・簡単 ×精度不足
• Bicubic補間、ランチョス再サンプリング
• 再構成ベース ・・・ 〇柔軟で鋭い詳細を生成 ×倍率が上がると急速に性能低下
• 事前知識を用い解空間の可能性を制限
• 学習ベース ・・・ 〇高速で性能がいい △最近DL手法が勝っている
• MarkemRandomField(MRF)
• 近傍埋め込み法
• スパースコーディング
• ランダムフォレスト
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
SISR用DLアーキテクチャ
• SRCNN・・・3層CNN(パッチ抽出、非線形マッピング、再構成)
• ロス関数・・・MSE
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
SRCNNの疑問点
• LRをBicubicして入力するため欠点がある
• スムージングが推定に悪影響を及ぼす可能性がある
• 補間する時間がかかる
• ダウンサンプリングのカーネルが未知の場合、生推定値として補間値を使うのは妥
当ではない。直接LRを入力するCNNアーキテクチャは設計できますか?
• 3層しかない・・・より複雑なCNNアーキテクチャによりよくなる可能性はあ
るか?あればどのように設計すればいいのか?
• SISRプロセスの特性をフレームや部品の設計に統合することはできる
か?またこれは効果的か?
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
直接LRを入力するCNNアーキテクチャは設計できますか?
• デコンボリューション・転置畳み込みによってアップサンプリング操作が可能
• FSRCNN
• ストライド畳み込みでは欠落情報の完全復元はできないけど
• 利点は2つ
• 最後で解像度を上げるので、計算量が削減される
• ダウンサンプリングカーネルが未知の場合、不正確な推定値を入力することで最終的な性能に
副作用がある
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
SRの分類
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
最近接補間の問題点
• アップサンプリングされた特徴が繰り返されるため冗長である
• ESPCN
• サブピクセルconv.
• 特徴マップを拡大させないで、並び替えで出力する
• 最近接補間より効率的
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
より複雑なCNNはどのように設計すればよいか?
• VDSR
• 20層VGG-net
• すべてのカーネルサイズが3×3
• 比較的大きな学習率・・・収束を加速
• 勾配クリッピング・・・勾配爆発の防止
• 複数のスケールに対して単一のモデル
• 残差学習・・・性能向上、収束加速
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
より複雑なCNNはどのように設計すればよいか?
• DRCN
• VDSRと似ている
• パラメータを減らすために同じ畳み込みカーネルを再帰的に16回使う
• 16個の中間結果を融合することで結果を得る・・・融合時の重みの合計は1
• 欠点は2つ
• 訓練時の重みが異なる入力でも変化しない
• 中間結果の重みを合成するため画素ごとの差異を考慮しない
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
より複雑なCNNはどのように設計すればよいか?
• SRResNet
• スキップ接続でより深くした(VGGのようなプレーンなアーキテクチャは深くし難い)
• 16個の残差ブロック(2つの非線形conv.と残差学習)
• 訓練の安定化のためにBNを使用
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
より複雑なCNNはどのように設計すればよいか?
• DRRN
• 再構成ブロックを再帰的な残差ブロックにした
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
より複雑なCNNはどのように設計すればよいか?
• EDSR
• フレーム全体に3つの改善でState-of-the-art
• 残差ブロックからBNを除去
• 残差スケーリングの導入
• 3倍、4倍の訓練時に2倍で訓練したパラメータで初期化
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
より複雑なCNNはどのように設計すればよいか?
• MDSR
• マルチスケールアーキテクチャを採用
• 非線形マッピングは異なるスケールで共有
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
より複雑なCNNはどのように設計すればよいか?
• SRDenseNet
• DenseNet
• スキップ接続を導入(ResNetは機能の再利用、DenseNetは機能の探索)
• Deconv.の前に異なるブロックからすべての特徴が連結されている
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
より複雑なCNNはどのように設計すればよいか?
• Memnet
• 残差ブロックを再帰的に使用
• 再帰ユニット内は短期記憶、ブロック同士の接続は長期記憶
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
より複雑なCNNはどのように設計すればよいか?
• RDN
• RDNブロック・・・高密度接続、ボトルネック層・・・ブロック全体で残差学習
• 再構成部分の前で、前ブロックからの特徴を高密度接続、残差学習で融合
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
• RDN・・・Residual Dense Network
• RDB(残差高密度ブロック)
• CM(連続メモリ)
• 局所特徴融合と大所特徴融合
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
SISRプロセスの特性をフレームや部品の設計に統合することはできるか?
• CSCN
• カスケード接続されたSCN
• スパース事前分布学習と深層学習の組み合わせ
• 学習済み反復収縮アルゴリズム(LISTA)
• 時間がかかるスパース符号化の近似推定をNNで行う
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
SISRプロセスの特性をフレームや部品の設計に統合することはできるか?
• DEGREE
• ResNetと従来のサブバンド再構成を組み合わせる
• サブバンド再構成は再帰的残差ブロックでシミュレート
• する
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
• LapSRN
• ラプラシアンピラミッド構造を用いHRを再構成
• 特徴抽出と画像再構成の2ブランチ
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
• DBPN
• 反復逆投影法をNNでシミュレートした
• DenseNetでパフォーマンスを向上させたDenseDBPNも提案
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
• PixelRNN,PixelCNN
• 指向性グラフィカルモデルにおける条件付き最尤推定を用いた自己回帰生成モデル
• 前に生成されたピクセルに基づいて徐々に高解像画像を生成する
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
• ZSSR
• 教師なしSR
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
• SRGAN
• 生成器SRResNet
• 識別器DCGAN・・・VGG19の中間特徴の差を最小化
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
• ESRGAN
• 生成器
• BNの排除
• 残差スケーリング
• Resブロック ⇒ ResInResDenseブロック(RRDB)
• 識別器
• 「真偽かどうか」ではなく、「一方が他方より現実的かどうか」
• VGGの特徴を活性化の前に使う
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
• EUSR
• 拡張拡大モジュール(EUM)
• 非線形演算
• スキップ接続
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
• 4PP-EUSR
• EUSRベース
• 識別器と2つの定性評価指標で学習
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
• DRN・・・二重再構成超解像
• GS(Gradient Sensitive)ロスを採用
• 勾配の大きさに基づきL成分,H成分を分離
• L成分の復元を犠牲にすることなく勾配に敏感な損失を与え、性能を上げるマスクを導入
• SRの二重性を調べることで、SR性能を改善する
• 関数P:X ⇒ Y
• 関数D:Y ⇒ X
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
• DTSN・・・Deterministic-STochastic Synthesis Network
• 決定論的成分と確率的成分に分離
• 決定論的成分・・・ダウンサンプリング画像内の低周波成分から復元可能
• 確率的成分・・・LRとの相関性がほとんどない
• 決定論的成分再構成・・・DNNの回帰問題
• 確率的成分再構成・・・GAN
• スタイル転送とテクスチャ合成に誘発された統合過程を採用
• 局所手統計的ロスを導入
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
DTSN
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
• RCAN・・・残差チャンネルアテンションネット
• どのチャンネルにも同じような低周波成分があるのでCNN表現力を阻害している
• RIRにより、低周波成分がスキップされるから高周波成分学習に集中できる
• チャンネルアテンション
• チャンネル間の依存関係を考慮しチャンネル単位の特徴を再スケーリング
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
• SRABA・・・超解像のためのアテンションベースアプローチ
• アテンションベースアプローチ
• アテンション生成ネットワーク
• 修復すべき高周波部分を見つける
• 特徴再構成ネットワーク
• HR画像を復元する
• 既存のSISRに組み込める
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
• MWCNN
• U-Net
• コントラクトサブネットワーク
• プーリングを離散ウェーブレット変換DWTに置換
• DWTは可逆なのでダウンサンプリングによってすべての情報が保存される
• 特徴マップの周波数と位置情報の両方を捕捉可能
• 逆ウェーブレット変換IWTでアップサンプリング
• 拡張サブネットワーク
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
• SRCliqueNet
• クリークブロック群でLRから特徴抽出
• クリークアップサンプリングモジュール
• 4つの高分解能ウェーブレット係数を予想するサブネット
• 2^J倍でアップサンプリング
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
• ORDSR 直交正規化深層SR
• 離散コサイン変換(DCT)におけるSR写像を学習
• DCTを畳み込み層CDCTとしてネットワークに組み込む
• CDCT層
• 入力画像のDCTキューブを生成
• D-CNN層
• 高周波スペクトルを回復させる
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
• WDSR
• 活性化前にアップスケーリングせずにアップスケーリングしてから活性化すると良い
• 線形低ランクConv.を導入
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
• LRFNet・・・ネットワークの受容野を直接拡大する
• 1次元の分離可能なカーネルとアトラス畳み込みを使用
• ベースは12resブロック
• アトラス畳み込みのみを行ったモノが8倍スケールでよかった
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
活性化関数編
• PLU: The Piecewise Linear Unit Activation Function
• ReLU・・・正は無制限、負は0、あらい
• Tanh・・・細かいけど、-1~1に制限されている
Confidential © Ecomott, Inc. ALL RIGHTS RESERVED
自己相似性学習
• KBLRSM
• カーネルレベル低ランクスパースモデル
• スパースコーディングの中ではいい感じになった

More Related Content

Similar to Super resolution survey 20180809

Okuyama説明資料 20120119 ss
Okuyama説明資料 20120119 ssOkuyama説明資料 20120119 ss
Okuyama説明資料 20120119 ssTakahiro Iwase
 
もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~
もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~
もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~griddb
 
文献紹介:EfficientDet: Scalable and Efficient Object Detection
文献紹介:EfficientDet: Scalable and Efficient Object Detection文献紹介:EfficientDet: Scalable and Efficient Object Detection
文献紹介:EfficientDet: Scalable and Efficient Object DetectionToru Tamaki
 
Superpixel Sampling Networks
Superpixel Sampling NetworksSuperpixel Sampling Networks
Superpixel Sampling Networksyukihiro domae
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTURE Project
 
もうSQLとNoSQLを選ぶ必要はない!?~両者を備えたスケールアウトデータベースGridDB~
もうSQLとNoSQLを選ぶ必要はない!?~両者を備えたスケールアウトデータベースGridDB~もうSQLとNoSQLを選ぶ必要はない!?~両者を備えたスケールアウトデータベースGridDB~
もうSQLとNoSQLを選ぶ必要はない!?~両者を備えたスケールアウトデータベースGridDB~griddb
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定Morpho, Inc.
 
単なるキャッシュじゃないよ!?infinispanの紹介
単なるキャッシュじゃないよ!?infinispanの紹介単なるキャッシュじゃないよ!?infinispanの紹介
単なるキャッシュじゃないよ!?infinispanの紹介AdvancedTechNight
 
CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)MasanoriSuganuma
 
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11MapR Technologies Japan
 
CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介Narihira Takuya
 
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...Deep Learning JP
 
2018 07 02_dense_pose
2018 07 02_dense_pose2018 07 02_dense_pose
2018 07 02_dense_poseharmonylab
 
インテルが考える次世代ファブリック
インテルが考える次世代ファブリックインテルが考える次世代ファブリック
インテルが考える次世代ファブリックNaoto MATSUMOTO
 
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」Sho Kagami
 
Riak 2.0 pre5 @ Riak Meetup #3
Riak 2.0 pre5 @ Riak Meetup #3Riak 2.0 pre5 @ Riak Meetup #3
Riak 2.0 pre5 @ Riak Meetup #3Shunichi Shinohara
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Satoshi Kato
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイyohei okawa
 
Windows Server 2019 の Hyper-Converged Infrastructure (HCI)
Windows Server 2019 の Hyper-Converged Infrastructure (HCI) Windows Server 2019 の Hyper-Converged Infrastructure (HCI)
Windows Server 2019 の Hyper-Converged Infrastructure (HCI) Hiroshi Matsumoto
 
文献紹介:TinyVIRAT: Low-resolution Video Action Recognition
文献紹介:TinyVIRAT: Low-resolution Video Action Recognition文献紹介:TinyVIRAT: Low-resolution Video Action Recognition
文献紹介:TinyVIRAT: Low-resolution Video Action RecognitionToru Tamaki
 

Similar to Super resolution survey 20180809 (20)

Okuyama説明資料 20120119 ss
Okuyama説明資料 20120119 ssOkuyama説明資料 20120119 ss
Okuyama説明資料 20120119 ss
 
もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~
もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~
もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~
 
文献紹介:EfficientDet: Scalable and Efficient Object Detection
文献紹介:EfficientDet: Scalable and Efficient Object Detection文献紹介:EfficientDet: Scalable and Efficient Object Detection
文献紹介:EfficientDet: Scalable and Efficient Object Detection
 
Superpixel Sampling Networks
Superpixel Sampling NetworksSuperpixel Sampling Networks
Superpixel Sampling Networks
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
 
もうSQLとNoSQLを選ぶ必要はない!?~両者を備えたスケールアウトデータベースGridDB~
もうSQLとNoSQLを選ぶ必要はない!?~両者を備えたスケールアウトデータベースGridDB~もうSQLとNoSQLを選ぶ必要はない!?~両者を備えたスケールアウトデータベースGridDB~
もうSQLとNoSQLを選ぶ必要はない!?~両者を備えたスケールアウトデータベースGridDB~
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
 
単なるキャッシュじゃないよ!?infinispanの紹介
単なるキャッシュじゃないよ!?infinispanの紹介単なるキャッシュじゃないよ!?infinispanの紹介
単なるキャッシュじゃないよ!?infinispanの紹介
 
CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)
 
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
 
CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介
 
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
 
2018 07 02_dense_pose
2018 07 02_dense_pose2018 07 02_dense_pose
2018 07 02_dense_pose
 
インテルが考える次世代ファブリック
インテルが考える次世代ファブリックインテルが考える次世代ファブリック
インテルが考える次世代ファブリック
 
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
 
Riak 2.0 pre5 @ Riak Meetup #3
Riak 2.0 pre5 @ Riak Meetup #3Riak 2.0 pre5 @ Riak Meetup #3
Riak 2.0 pre5 @ Riak Meetup #3
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
 
Windows Server 2019 の Hyper-Converged Infrastructure (HCI)
Windows Server 2019 の Hyper-Converged Infrastructure (HCI) Windows Server 2019 の Hyper-Converged Infrastructure (HCI)
Windows Server 2019 の Hyper-Converged Infrastructure (HCI)
 
文献紹介:TinyVIRAT: Low-resolution Video Action Recognition
文献紹介:TinyVIRAT: Low-resolution Video Action Recognition文献紹介:TinyVIRAT: Low-resolution Video Action Recognition
文献紹介:TinyVIRAT: Low-resolution Video Action Recognition
 

Super resolution survey 20180809

  • 1. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED 超解像技術の話 ~arXiv:1808.03344v1を起点に~ エコモット株式会社 庄内道博
  • 2. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED 従来のSISRの問題点 • 不明確な定義 • LR空間とHR空間の間で開発されるマッピング • 非効率性 • 大量の生データを使った複雑な高次元マッピング • 最近のDLベースSISR • LR空間ーHR空間の効率的で高レベルな抽象化 • 定量的定性的な改善がみられる
  • 3. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED 焦点 • データ前処理・・・DataAugumentation • モデルの訓練技術・・・Adam, PReLU • NNアーキテクチャ • 最適化
  • 4. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED SISR • 超解像とは • 同じシーンの1つ以上の低解像度観測から高解像度画像を復元するタスク • SISR(入力数が1)とMISR(入力数が2以上) • SISRの方が難しい • 1つの入力LRは複数のHR解の可能性がある • 今までのSISRアルゴリズム • 補間ベース ・・・ 〇非常に高速・簡単 ×精度不足 • Bicubic補間、ランチョス再サンプリング • 再構成ベース ・・・ 〇柔軟で鋭い詳細を生成 ×倍率が上がると急速に性能低下 • 事前知識を用い解空間の可能性を制限 • 学習ベース ・・・ 〇高速で性能がいい △最近DL手法が勝っている • MarkemRandomField(MRF) • 近傍埋め込み法 • スパースコーディング • ランダムフォレスト
  • 5. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED SISR用DLアーキテクチャ • SRCNN・・・3層CNN(パッチ抽出、非線形マッピング、再構成) • ロス関数・・・MSE
  • 6. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED SRCNNの疑問点 • LRをBicubicして入力するため欠点がある • スムージングが推定に悪影響を及ぼす可能性がある • 補間する時間がかかる • ダウンサンプリングのカーネルが未知の場合、生推定値として補間値を使うのは妥 当ではない。直接LRを入力するCNNアーキテクチャは設計できますか? • 3層しかない・・・より複雑なCNNアーキテクチャによりよくなる可能性はあ るか?あればどのように設計すればいいのか? • SISRプロセスの特性をフレームや部品の設計に統合することはできる か?またこれは効果的か?
  • 7. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED 直接LRを入力するCNNアーキテクチャは設計できますか? • デコンボリューション・転置畳み込みによってアップサンプリング操作が可能 • FSRCNN • ストライド畳み込みでは欠落情報の完全復元はできないけど • 利点は2つ • 最後で解像度を上げるので、計算量が削減される • ダウンサンプリングカーネルが未知の場合、不正確な推定値を入力することで最終的な性能に 副作用がある
  • 8. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED SRの分類
  • 9. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED 最近接補間の問題点 • アップサンプリングされた特徴が繰り返されるため冗長である • ESPCN • サブピクセルconv. • 特徴マップを拡大させないで、並び替えで出力する • 最近接補間より効率的
  • 10. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED より複雑なCNNはどのように設計すればよいか? • VDSR • 20層VGG-net • すべてのカーネルサイズが3×3 • 比較的大きな学習率・・・収束を加速 • 勾配クリッピング・・・勾配爆発の防止 • 複数のスケールに対して単一のモデル • 残差学習・・・性能向上、収束加速
  • 11. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED より複雑なCNNはどのように設計すればよいか? • DRCN • VDSRと似ている • パラメータを減らすために同じ畳み込みカーネルを再帰的に16回使う • 16個の中間結果を融合することで結果を得る・・・融合時の重みの合計は1 • 欠点は2つ • 訓練時の重みが異なる入力でも変化しない • 中間結果の重みを合成するため画素ごとの差異を考慮しない
  • 12. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED より複雑なCNNはどのように設計すればよいか? • SRResNet • スキップ接続でより深くした(VGGのようなプレーンなアーキテクチャは深くし難い) • 16個の残差ブロック(2つの非線形conv.と残差学習) • 訓練の安定化のためにBNを使用
  • 13. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED より複雑なCNNはどのように設計すればよいか? • DRRN • 再構成ブロックを再帰的な残差ブロックにした
  • 14. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED より複雑なCNNはどのように設計すればよいか? • EDSR • フレーム全体に3つの改善でState-of-the-art • 残差ブロックからBNを除去 • 残差スケーリングの導入 • 3倍、4倍の訓練時に2倍で訓練したパラメータで初期化
  • 15. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED より複雑なCNNはどのように設計すればよいか? • MDSR • マルチスケールアーキテクチャを採用 • 非線形マッピングは異なるスケールで共有
  • 16. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED より複雑なCNNはどのように設計すればよいか? • SRDenseNet • DenseNet • スキップ接続を導入(ResNetは機能の再利用、DenseNetは機能の探索) • Deconv.の前に異なるブロックからすべての特徴が連結されている
  • 17. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED より複雑なCNNはどのように設計すればよいか? • Memnet • 残差ブロックを再帰的に使用 • 再帰ユニット内は短期記憶、ブロック同士の接続は長期記憶
  • 18. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED より複雑なCNNはどのように設計すればよいか? • RDN • RDNブロック・・・高密度接続、ボトルネック層・・・ブロック全体で残差学習 • 再構成部分の前で、前ブロックからの特徴を高密度接続、残差学習で融合
  • 19. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED • RDN・・・Residual Dense Network • RDB(残差高密度ブロック) • CM(連続メモリ) • 局所特徴融合と大所特徴融合
  • 20. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED SISRプロセスの特性をフレームや部品の設計に統合することはできるか? • CSCN • カスケード接続されたSCN • スパース事前分布学習と深層学習の組み合わせ • 学習済み反復収縮アルゴリズム(LISTA) • 時間がかかるスパース符号化の近似推定をNNで行う
  • 21. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED SISRプロセスの特性をフレームや部品の設計に統合することはできるか? • DEGREE • ResNetと従来のサブバンド再構成を組み合わせる • サブバンド再構成は再帰的残差ブロックでシミュレート • する
  • 22. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED • LapSRN • ラプラシアンピラミッド構造を用いHRを再構成 • 特徴抽出と画像再構成の2ブランチ
  • 23. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED • DBPN • 反復逆投影法をNNでシミュレートした • DenseNetでパフォーマンスを向上させたDenseDBPNも提案
  • 24. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED • PixelRNN,PixelCNN • 指向性グラフィカルモデルにおける条件付き最尤推定を用いた自己回帰生成モデル • 前に生成されたピクセルに基づいて徐々に高解像画像を生成する
  • 25. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED • ZSSR • 教師なしSR
  • 26. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED • SRGAN • 生成器SRResNet • 識別器DCGAN・・・VGG19の中間特徴の差を最小化
  • 27. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED • ESRGAN • 生成器 • BNの排除 • 残差スケーリング • Resブロック ⇒ ResInResDenseブロック(RRDB) • 識別器 • 「真偽かどうか」ではなく、「一方が他方より現実的かどうか」 • VGGの特徴を活性化の前に使う
  • 28. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED • EUSR • 拡張拡大モジュール(EUM) • 非線形演算 • スキップ接続
  • 29. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED • 4PP-EUSR • EUSRベース • 識別器と2つの定性評価指標で学習
  • 30. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED • DRN・・・二重再構成超解像 • GS(Gradient Sensitive)ロスを採用 • 勾配の大きさに基づきL成分,H成分を分離 • L成分の復元を犠牲にすることなく勾配に敏感な損失を与え、性能を上げるマスクを導入 • SRの二重性を調べることで、SR性能を改善する • 関数P:X ⇒ Y • 関数D:Y ⇒ X
  • 31. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED • DTSN・・・Deterministic-STochastic Synthesis Network • 決定論的成分と確率的成分に分離 • 決定論的成分・・・ダウンサンプリング画像内の低周波成分から復元可能 • 確率的成分・・・LRとの相関性がほとんどない • 決定論的成分再構成・・・DNNの回帰問題 • 確率的成分再構成・・・GAN • スタイル転送とテクスチャ合成に誘発された統合過程を採用 • 局所手統計的ロスを導入
  • 32. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED DTSN
  • 33. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED • RCAN・・・残差チャンネルアテンションネット • どのチャンネルにも同じような低周波成分があるのでCNN表現力を阻害している • RIRにより、低周波成分がスキップされるから高周波成分学習に集中できる • チャンネルアテンション • チャンネル間の依存関係を考慮しチャンネル単位の特徴を再スケーリング
  • 34. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED • SRABA・・・超解像のためのアテンションベースアプローチ • アテンションベースアプローチ • アテンション生成ネットワーク • 修復すべき高周波部分を見つける • 特徴再構成ネットワーク • HR画像を復元する • 既存のSISRに組み込める
  • 35. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED • MWCNN • U-Net • コントラクトサブネットワーク • プーリングを離散ウェーブレット変換DWTに置換 • DWTは可逆なのでダウンサンプリングによってすべての情報が保存される • 特徴マップの周波数と位置情報の両方を捕捉可能 • 逆ウェーブレット変換IWTでアップサンプリング • 拡張サブネットワーク
  • 36. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED • SRCliqueNet • クリークブロック群でLRから特徴抽出 • クリークアップサンプリングモジュール • 4つの高分解能ウェーブレット係数を予想するサブネット • 2^J倍でアップサンプリング
  • 37. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED • ORDSR 直交正規化深層SR • 離散コサイン変換(DCT)におけるSR写像を学習 • DCTを畳み込み層CDCTとしてネットワークに組み込む • CDCT層 • 入力画像のDCTキューブを生成 • D-CNN層 • 高周波スペクトルを回復させる
  • 38. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED • WDSR • 活性化前にアップスケーリングせずにアップスケーリングしてから活性化すると良い • 線形低ランクConv.を導入
  • 39. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED • LRFNet・・・ネットワークの受容野を直接拡大する • 1次元の分離可能なカーネルとアトラス畳み込みを使用 • ベースは12resブロック • アトラス畳み込みのみを行ったモノが8倍スケールでよかった
  • 40. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED 活性化関数編 • PLU: The Piecewise Linear Unit Activation Function • ReLU・・・正は無制限、負は0、あらい • Tanh・・・細かいけど、-1~1に制限されている
  • 41. Confidential © Ecomott, Inc. ALL RIGHTS RESERVED 自己相似性学習 • KBLRSM • カーネルレベル低ランクスパースモデル • スパースコーディングの中ではいい感じになった