論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Neural Global Shutter: Learn to Restore Video from a Rolling Shutter Camera with Global Reset Feature
1. Neural Global Shutter: Learn to Restore Video
from a Rolling Shutter Camera
with Global Reset Feature
発表者: tomoaki_teshima
tomoaki_teshima tomoaki0705 tomoaki_teshima tomoaki0705
2022/8/21
第11回 全日本コンピュータビジョン勉強会
CVPR2022読み会(後編)
2. Neural Global Shutter: Learn to Restore Video
from a Rolling Shutter Camera with Global Reset Feature
Zhixiang Wang1;2;3 Xiang Ji1 Jia-Bin Huang4
Shin’ichi Satoh3;1 Xiao Zhou5† Yinqiang Zheng1 †
1The University of Tokyo 2RIISE 3National Institute of Informatics
4University of Maryland College Park 5Hefei Normal University
†Corresponding Author
2022/8/21
第11回 全日本コンピュータビジョン勉強会
CVPR2022読み会(後編)
4. Contribution
• Problem
• Optic system and dataset: we build an optic system that takes paired
RSGR/GS videos
• Algorithm
2022/8/21
第11回 全日本コンピュータビジョン勉強会
CVPR2022読み会(後編)
5. What is rolling shutter effect ?
• 物体かカメラが動くと
直線成分が傾いたり
曲線に変わる
2022/8/21
第11回 全日本コンピュータビジョン勉強会
CVPR2022読み会(後編)
6. Difference of GS and RS
2022/8/21
第11回 全日本コンピュータビジョン勉強会
CVPR2022読み会(後編)
センサ(ピクセル) バッファ
フォトン/エネルギー A/D変換 プロセッサ/メモリ
センサ(ピクセル)
フォトン/エネルギー A/D変換 プロセッサ/メモリ
情報を蓄えておくバッファがない!
Global Shutter
Rolling Shutter
7. Rolling Shutter Global Reset Feature
2022/8/21
第11回 全日本コンピュータビジョン勉強会
CVPR2022読み会(後編)
[46] https://linx.jp/image/news/express/2014/linx_express_i14203.shtml
注:この例はあくまでGlobal Reset Featureの一例で本手法にはストロボを使うわけではない
ストロボ 照明なし
8. Comparison of Global Shutter/Rolling Shutter
2022/8/21
第11回 全日本コンピュータビジョン勉強会
CVPR2022読み会(後編)
Global Shutter Rolling Shutter Ideal shutter
Distortion free? Yes No Yes
Noise Higher Lower Lower
Power consumption Higher Lower Lower
Cost $$$$ $ $
ネットワークは主に3種類。空間的なencoderと、時間方向のaggregator
空間方向は当然。Y座標によって明るさが変わってくるので、1フレーム内で修正が必要。
EEとあるのはExposure Encoding
これは各行の露光時間を情報として入力するため。
実際は各ピクセルに露光時間の情報をを埋め込んで、RGBと露光時間の情報がModelに突っ込まれます。
SAはSpatial Attentionの略。
EEとSAの2つを使うことで露光時間の違いを補正する
前後のフレームの情報を含めるために long term temporal aggregator , short term temporal aggregator が存在する。
全部紹介していると時間がなくなるぐらい丁寧に評価しているので、論文の評価結果の一部を紹介します。
他の手法との比較。
DeblurGANとか、入力画像より劣化してる
GTがあるので、比較値で一発定量比較できるのは美しい。
Fが全画面、UがUpper、MがMiddle、LがLowerな部分に限った評価。200行ずつ使った。
評価値はPSNRとSSIM。大きい数値のほうが好成績。
上から
Unsupervised GS-image based deblur [11]
Supervised GS-image based deblur [33]
Supervised GS-video based deblur [8][32][20][40]
Supervised RS correction/deblur [16][41]
どのステップ抜いてもダメだぜ。
T1がT2より悪い性能を示すってことは、forward path だけでラーニングすると、
Aggregator 自体を使わなかったときより性能がおちる。
Ablation Study
Architecture ablation.
EE Exposure Encoding
SA Spatial Attention
Long term aggregator (Back path)
Long term Aggregator
DCN to Convolution
T4 (T3 and T2)
T5 (T4 and DCN to Convolution)
T6 T5 and no short-term temporal information
どの損失関数使っても結局のところSSIMとperceptual loss の組み合わせがいい感じ
SSIM 以外はへんてこなartifact が出る(とはいえ、Charbonnierとかなかなかぱっと見はわからんがな)
Structure restoration に一番聴いたのは perceptual loss
(ほんまかいな)