SlideShare a Scribd company logo
1 of 22
Neural Global Shutter: Learn to Restore Video
from a Rolling Shutter Camera
with Global Reset Feature
発表者: tomoaki_teshima
tomoaki_teshima tomoaki0705 tomoaki_teshima tomoaki0705
2022/8/21
第11回 全日本コンピュータビジョン勉強会
CVPR2022読み会(後編)
Neural Global Shutter: Learn to Restore Video
from a Rolling Shutter Camera with Global Reset Feature
Zhixiang Wang1;2;3 Xiang Ji1 Jia-Bin Huang4
Shin’ichi Satoh3;1 Xiao Zhou5† Yinqiang Zheng1 †
1The University of Tokyo 2RIISE 3National Institute of Informatics
4University of Maryland College Park 5Hefei Normal University
†Corresponding Author
2022/8/21
第11回 全日本コンピュータビジョン勉強会
CVPR2022読み会(後編)
Summary
• Rolling Shutter Distortionの影響を減らすよ!
2022/8/21
第11回 全日本コンピュータビジョン勉強会
CVPR2022読み会(後編)
Contribution
• Problem
• Optic system and dataset: we build an optic system that takes paired
RSGR/GS videos
• Algorithm
2022/8/21
第11回 全日本コンピュータビジョン勉強会
CVPR2022読み会(後編)
What is rolling shutter effect ?
• 物体かカメラが動くと
直線成分が傾いたり
曲線に変わる
2022/8/21
第11回 全日本コンピュータビジョン勉強会
CVPR2022読み会(後編)
Difference of GS and RS
2022/8/21
第11回 全日本コンピュータビジョン勉強会
CVPR2022読み会(後編)
センサ(ピクセル) バッファ
フォトン/エネルギー A/D変換 プロセッサ/メモリ
センサ(ピクセル)
フォトン/エネルギー A/D変換 プロセッサ/メモリ
情報を蓄えておくバッファがない!
Global Shutter
Rolling Shutter
Rolling Shutter Global Reset Feature
2022/8/21
第11回 全日本コンピュータビジョン勉強会
CVPR2022読み会(後編)
[46] https://linx.jp/image/news/express/2014/linx_express_i14203.shtml
注:この例はあくまでGlobal Reset Featureの一例で本手法にはストロボを使うわけではない
ストロボ 照明なし
Comparison of Global Shutter/Rolling Shutter
2022/8/21
第11回 全日本コンピュータビジョン勉強会
CVPR2022読み会(後編)
Global Shutter Rolling Shutter Ideal shutter
Distortion free? Yes No Yes
Noise Higher Lower Lower
Power consumption Higher Lower Lower
Cost $$$$ $ $
Existing solutions
2022/8/21
第11回 全日本コンピュータビジョン勉強会
CVPR2022読み会(後編)
HW based Computational based
Summary Additional memory Correcting the distortion
Pros Distortion free with RS Next page
Cons Sensor size, cost and noise Next page
Computational method
• Single input + Classical method
• [12,25] 画像内の直線を仮定してmotion estimation
• [22] Camera motion に特殊な制約を課してmotion estimation
• Single input + Learning based method
• [24,45] 画像内の前提を外す代わりにCamera motionに制約を
課してmotion estimation
• Multi input
• Classical method [43,44] でも Learning based method [16] でも
motion estimation
2022/8/21
第11回 全日本コンピュータビジョン勉強会
CVPR2022読み会(後編)
Contribution
• RSGRを使うことで、Motion Estimationの問題をDeblur-likeな問題
に落とし込んだ
• Optic system and dataset: we build an optic system that takes paired
RSGR/GS videos
• Algorithm
2022/8/21
第11回 全日本コンピュータビジョン勉強会
CVPR2022読み会(後編)
Rolling Shutter Global Reset (RSGR)
2022/8/21
第11回 全日本コンピュータビジョン勉強会
CVPR2022読み会(後編)
Diagram
2022/8/21
第11回 全日本コンピュータビジョン勉強会 CVPR2022読
み会(後編)
Diagram
2022/8/21
第11回 全日本コンピュータビジョン勉強会
CVPR2022読み会(後編)
Experiments
• 大体Oursが圧勝
• そもそも入力がRSGRなんだから他の手法がうまくいくわけがない
• それでも著者らは丁寧に評価している
• 他の手法と比べるにしても、難しいシーン、簡単なシーン、評
価値をSSIM/PSNRと2種類使う、画面全体と画面一部での評価
• DNNのpre-trained weight だけ他の論文から借りてきて試す
• 実際に他の手法の入力として使ってみる
• 他のRSGRセンサも使ってみる
2022/8/21
第11回 全日本コンピュータビジョン勉強会
CVPR2022読み会(後編)
Experiment (Quantitative Evaluation)
2022/8/21
第11回 全日本コンピュータビジョン勉強会
CVPR2022読み会(後編)
Experiment (Qualitative Evaluation)
2022/8/21
第11回 全日本コンピュータビジョン勉強会
CVPR2022読み会(後編)
Contribution of each step
• どのstepもContribute
• Temporal aggregator だけは
forward path だけで利用すると、
aggregatorを利用しない場合よ
り性能が落ちる
2022/8/21
第11回 全日本コンピュータビジョン勉強会
CVPR2022読み会(後編)
Loss ablation
2022/8/21
第11回 全日本コンピュータビジョン勉強会
CVPR2022読み会(後編)
Downstream Applications
• FD: デプス推定
• FE : エッジ検出
2022/8/21
第11回 全日本コンピュータビジョン勉強会
CVPR2022読み会(後編)
Generalization Evaluation
• 唐突な京王バス
2022/8/21
第11回 全日本コンピュータビジョン勉強会
CVPR2022読み会(後編)
Conclusion
• Rolling Shutter Deformation の影響を減らした
• 初めてRSGR機能を使った
• RSGRとGlobal Shutterを対にしたデータセットを公開した
• Rolling Shutter の問題をdeblur-likeな問題に置き換えた
• HWの改造なしに、Rolling Shutter Deformation を復元できる
2022/8/21
第11回 全日本コンピュータビジョン勉強会
CVPR2022読み会(後編)

More Related Content

What's hot

動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセットToru Tamaki
 
画像の基盤モデルの変遷と研究動向
画像の基盤モデルの変遷と研究動向画像の基盤モデルの変遷と研究動向
画像の基盤モデルの変遷と研究動向nlab_utokyo
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向Kensho Hara
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII
 
SSII2022 [OS1-01] AI時代のチームビルディング
SSII2022 [OS1-01] AI時代のチームビルディングSSII2022 [OS1-01] AI時代のチームビルディング
SSII2022 [OS1-01] AI時代のチームビルディングSSII
 
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...Deep Learning JP
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII
 
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII
 
【DL輪読会】HyperTree Proof Search for Neural Theorem Proving
【DL輪読会】HyperTree Proof Search for Neural Theorem Proving【DL輪読会】HyperTree Proof Search for Neural Theorem Proving
【DL輪読会】HyperTree Proof Search for Neural Theorem ProvingDeep Learning JP
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Keigo Nishida
 
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured PredictionDeep Learning JP
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisKento Doi
 
研究法(Claimとは)
研究法(Claimとは)研究法(Claimとは)
研究法(Claimとは)Jun Rekimoto
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted WindowsDeep Learning JP
 
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...Deep Learning JP
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成Yoshitaka Ushiku
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者cvpaper. challenge
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative ModelDeep Learning JP
 

What's hot (20)

動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
画像の基盤モデルの変遷と研究動向
画像の基盤モデルの変遷と研究動向画像の基盤モデルの変遷と研究動向
画像の基盤モデルの変遷と研究動向
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
 
SSII2022 [OS1-01] AI時代のチームビルディング
SSII2022 [OS1-01] AI時代のチームビルディングSSII2022 [OS1-01] AI時代のチームビルディング
SSII2022 [OS1-01] AI時代のチームビルディング
 
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
 
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
 
【DL輪読会】HyperTree Proof Search for Neural Theorem Proving
【DL輪読会】HyperTree Proof Search for Neural Theorem Proving【DL輪読会】HyperTree Proof Search for Neural Theorem Proving
【DL輪読会】HyperTree Proof Search for Neural Theorem Proving
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
 
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
研究法(Claimとは)
研究法(Claimとは)研究法(Claimとは)
研究法(Claimとは)
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
 
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
 

Similar to Neural Global Shutter: Learn to Restore Video from a Rolling Shutter Camera with Global Reset Feature

Towards Performant Video Recognition
Towards Performant Video RecognitionTowards Performant Video Recognition
Towards Performant Video Recognitioncvpaper. challenge
 
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)Shintaro Yoshida
 
Windows 11とNPUで実現するWindowsのAI
Windows 11とNPUで実現するWindowsのAIWindows 11とNPUで実現するWindowsのAI
Windows 11とNPUで実現するWindowsのAITomokazu Kizawa
 
[DL輪読会]Stereo Magnification: Learning view synthesis using multiplane images, +α
[DL輪読会]Stereo Magnification: Learning view synthesis using multiplane images, +α[DL輪読会]Stereo Magnification: Learning view synthesis using multiplane images, +α
[DL輪読会]Stereo Magnification: Learning view synthesis using multiplane images, +αDeep Learning JP
 
SSII2020 [O3-01] Extreme 3D センシング
SSII2020 [O3-01]  Extreme 3D センシングSSII2020 [O3-01]  Extreme 3D センシング
SSII2020 [O3-01] Extreme 3D センシングSSII
 
Particle Video Revisited: Tracking Through Occlusions Using Point Trajectorie...
Particle Video Revisited: Tracking Through Occlusions Using Point Trajectorie...Particle Video Revisited: Tracking Through Occlusions Using Point Trajectorie...
Particle Video Revisited: Tracking Through Occlusions Using Point Trajectorie...tomoaki0705
 
メタスタディ (Vision and Language)
メタスタディ (Vision and Language)メタスタディ (Vision and Language)
メタスタディ (Vision and Language)Shintaro Yamamoto
 
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...harmonylab
 
Cloud impact on IT industry (in Japanese)
Cloud impact on IT industry (in Japanese)Cloud impact on IT industry (in Japanese)
Cloud impact on IT industry (in Japanese)shojiro-tanaka
 
CEDEC 2011 コンピュータ・グラフィクス関連の最新論文紹介 ~Shape Matching法とその周辺技術~
CEDEC 2011 コンピュータ・グラフィクス関連の最新論文紹介 ~Shape Matching法とその周辺技術~CEDEC 2011 コンピュータ・グラフィクス関連の最新論文紹介 ~Shape Matching法とその周辺技術~
CEDEC 2011 コンピュータ・グラフィクス関連の最新論文紹介 ~Shape Matching法とその周辺技術~Silicon Studio Corporation
 
20130225 umtp agile_seminar
20130225 umtp agile_seminar20130225 umtp agile_seminar
20130225 umtp agile_seminarYosuke Matsuura
 
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...Deep Learning JP
 
SSII2014 チュートリアル資料
SSII2014 チュートリアル資料SSII2014 チュートリアル資料
SSII2014 チュートリアル資料Masayuki Tanaka
 
[DL Hacks]AVID: Adversarial Visual Irregularity Detection
[DL Hacks]AVID: Adversarial Visual Irregularity Detection[DL Hacks]AVID: Adversarial Visual Irregularity Detection
[DL Hacks]AVID: Adversarial Visual Irregularity DetectionDeep Learning JP
 
AWS Lookout For Vision
AWS Lookout For VisionAWS Lookout For Vision
AWS Lookout For Visionssuser862174
 
GRPContractFormの制作と公開_201311 (Development and Publication of GRP Contract Form)
GRPContractFormの制作と公開_201311 (Development and Publication of GRP Contract Form)GRPContractFormの制作と公開_201311 (Development and Publication of GRP Contract Form)
GRPContractFormの制作と公開_201311 (Development and Publication of GRP Contract Form)Yosuke Sakai
 
2015年度GPGPU実践基礎工学 第12回 GPUによる画像処理
2015年度GPGPU実践基礎工学 第12回 GPUによる画像処理2015年度GPGPU実践基礎工学 第12回 GPUによる画像処理
2015年度GPGPU実践基礎工学 第12回 GPUによる画像処理智啓 出川
 
テストスイートアーキテクチャへのアーキテクチャ検証手法ATAMの 適用
テストスイートアーキテクチャへのアーキテクチャ検証手法ATAMの 適用テストスイートアーキテクチャへのアーキテクチャ検証手法ATAMの 適用
テストスイートアーキテクチャへのアーキテクチャ検証手法ATAMの 適用tomohiro odan
 
3Dプリンタ関連論文(SIGGRAPHより)
3Dプリンタ関連論文(SIGGRAPHより)3Dプリンタ関連論文(SIGGRAPHより)
3Dプリンタ関連論文(SIGGRAPHより)Yukio Andoh
 
第11回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)第11回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 

Similar to Neural Global Shutter: Learn to Restore Video from a Rolling Shutter Camera with Global Reset Feature (20)

Towards Performant Video Recognition
Towards Performant Video RecognitionTowards Performant Video Recognition
Towards Performant Video Recognition
 
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
 
Windows 11とNPUで実現するWindowsのAI
Windows 11とNPUで実現するWindowsのAIWindows 11とNPUで実現するWindowsのAI
Windows 11とNPUで実現するWindowsのAI
 
[DL輪読会]Stereo Magnification: Learning view synthesis using multiplane images, +α
[DL輪読会]Stereo Magnification: Learning view synthesis using multiplane images, +α[DL輪読会]Stereo Magnification: Learning view synthesis using multiplane images, +α
[DL輪読会]Stereo Magnification: Learning view synthesis using multiplane images, +α
 
SSII2020 [O3-01] Extreme 3D センシング
SSII2020 [O3-01]  Extreme 3D センシングSSII2020 [O3-01]  Extreme 3D センシング
SSII2020 [O3-01] Extreme 3D センシング
 
Particle Video Revisited: Tracking Through Occlusions Using Point Trajectorie...
Particle Video Revisited: Tracking Through Occlusions Using Point Trajectorie...Particle Video Revisited: Tracking Through Occlusions Using Point Trajectorie...
Particle Video Revisited: Tracking Through Occlusions Using Point Trajectorie...
 
メタスタディ (Vision and Language)
メタスタディ (Vision and Language)メタスタディ (Vision and Language)
メタスタディ (Vision and Language)
 
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
 
Cloud impact on IT industry (in Japanese)
Cloud impact on IT industry (in Japanese)Cloud impact on IT industry (in Japanese)
Cloud impact on IT industry (in Japanese)
 
CEDEC 2011 コンピュータ・グラフィクス関連の最新論文紹介 ~Shape Matching法とその周辺技術~
CEDEC 2011 コンピュータ・グラフィクス関連の最新論文紹介 ~Shape Matching法とその周辺技術~CEDEC 2011 コンピュータ・グラフィクス関連の最新論文紹介 ~Shape Matching法とその周辺技術~
CEDEC 2011 コンピュータ・グラフィクス関連の最新論文紹介 ~Shape Matching法とその周辺技術~
 
20130225 umtp agile_seminar
20130225 umtp agile_seminar20130225 umtp agile_seminar
20130225 umtp agile_seminar
 
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
 
SSII2014 チュートリアル資料
SSII2014 チュートリアル資料SSII2014 チュートリアル資料
SSII2014 チュートリアル資料
 
[DL Hacks]AVID: Adversarial Visual Irregularity Detection
[DL Hacks]AVID: Adversarial Visual Irregularity Detection[DL Hacks]AVID: Adversarial Visual Irregularity Detection
[DL Hacks]AVID: Adversarial Visual Irregularity Detection
 
AWS Lookout For Vision
AWS Lookout For VisionAWS Lookout For Vision
AWS Lookout For Vision
 
GRPContractFormの制作と公開_201311 (Development and Publication of GRP Contract Form)
GRPContractFormの制作と公開_201311 (Development and Publication of GRP Contract Form)GRPContractFormの制作と公開_201311 (Development and Publication of GRP Contract Form)
GRPContractFormの制作と公開_201311 (Development and Publication of GRP Contract Form)
 
2015年度GPGPU実践基礎工学 第12回 GPUによる画像処理
2015年度GPGPU実践基礎工学 第12回 GPUによる画像処理2015年度GPGPU実践基礎工学 第12回 GPUによる画像処理
2015年度GPGPU実践基礎工学 第12回 GPUによる画像処理
 
テストスイートアーキテクチャへのアーキテクチャ検証手法ATAMの 適用
テストスイートアーキテクチャへのアーキテクチャ検証手法ATAMの 適用テストスイートアーキテクチャへのアーキテクチャ検証手法ATAMの 適用
テストスイートアーキテクチャへのアーキテクチャ検証手法ATAMの 適用
 
3Dプリンタ関連論文(SIGGRAPHより)
3Dプリンタ関連論文(SIGGRAPHより)3Dプリンタ関連論文(SIGGRAPHより)
3Dプリンタ関連論文(SIGGRAPHより)
 
第11回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)第11回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)
 

More from tomoaki0705

From Points to Multi-Object 3D Reconstruction
From Points to Multi-Object 3D ReconstructionFrom Points to Multi-Object 3D Reconstruction
From Points to Multi-Object 3D Reconstructiontomoaki0705
 
Draw Normal Distribution on Powerpoint
Draw Normal Distribution on PowerpointDraw Normal Distribution on Powerpoint
Draw Normal Distribution on Powerpointtomoaki0705
 
Using asimdhp (fp16) on Jetson Xavier CPU
Using asimdhp (fp16) on Jetson Xavier CPUUsing asimdhp (fp16) on Jetson Xavier CPU
Using asimdhp (fp16) on Jetson Xavier CPUtomoaki0705
 
Kantocv 2-1-calibration publish
Kantocv 2-1-calibration publishKantocv 2-1-calibration publish
Kantocv 2-1-calibration publishtomoaki0705
 
Cvim saisentan-cvpr-super-slomo-publish
Cvim saisentan-cvpr-super-slomo-publishCvim saisentan-cvpr-super-slomo-publish
Cvim saisentan-cvpr-super-slomo-publishtomoaki0705
 
Cvim saisentan-gpu-open cl
Cvim saisentan-gpu-open clCvim saisentan-gpu-open cl
Cvim saisentan-gpu-open cltomoaki0705
 
Prmu iccv-2017-rolling-shutter-publish
Prmu iccv-2017-rolling-shutter-publishPrmu iccv-2017-rolling-shutter-publish
Prmu iccv-2017-rolling-shutter-publishtomoaki0705
 
Scalable Surface Reconstruction from Point Clouds with Extreme Scale and Dens...
Scalable Surface Reconstruction from Point Clouds with Extreme Scale and Dens...Scalable Surface Reconstruction from Point Clouds with Extreme Scale and Dens...
Scalable Surface Reconstruction from Point Clouds with Extreme Scale and Dens...tomoaki0705
 
Cvim saisentan-ellipse-publish
Cvim saisentan-ellipse-publishCvim saisentan-ellipse-publish
Cvim saisentan-ellipse-publishtomoaki0705
 
Gpgpu tomoaki-fp16
Gpgpu tomoaki-fp16Gpgpu tomoaki-fp16
Gpgpu tomoaki-fp16tomoaki0705
 
Cvim saisentan-cvpr-hyper depth
Cvim saisentan-cvpr-hyper depthCvim saisentan-cvpr-hyper depth
Cvim saisentan-cvpr-hyper depthtomoaki0705
 
Cvim saisentan-4-2-tomoaki
Cvim saisentan-4-2-tomoakiCvim saisentan-4-2-tomoaki
Cvim saisentan-4-2-tomoakitomoaki0705
 
Cvim saisentan 半精度浮動小数点数 half
Cvim saisentan 半精度浮動小数点数 halfCvim saisentan 半精度浮動小数点数 half
Cvim saisentan 半精度浮動小数点数 halftomoaki0705
 
OpenCV祭り (配布用)
OpenCV祭り (配布用)OpenCV祭り (配布用)
OpenCV祭り (配布用)tomoaki0705
 
Cvim half precision floating point
Cvim half precision floating pointCvim half precision floating point
Cvim half precision floating pointtomoaki0705
 
Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation
Mind’s Eye: A Recurrent Visual Representation for Image Caption GenerationMind’s Eye: A Recurrent Visual Representation for Image Caption Generation
Mind’s Eye: A Recurrent Visual Representation for Image Caption Generationtomoaki0705
 
Cvim saisentan-5-2-tomoaki
Cvim saisentan-5-2-tomoakiCvim saisentan-5-2-tomoaki
Cvim saisentan-5-2-tomoakitomoaki0705
 
JetsonでOpenCV
 JetsonでOpenCV JetsonでOpenCV
JetsonでOpenCVtomoaki0705
 
Cvim saisentan-cvpr-deep face
Cvim saisentan-cvpr-deep faceCvim saisentan-cvpr-deep face
Cvim saisentan-cvpr-deep facetomoaki0705
 
Cvim saisentan-6-4-tomoaki
Cvim saisentan-6-4-tomoakiCvim saisentan-6-4-tomoaki
Cvim saisentan-6-4-tomoakitomoaki0705
 

More from tomoaki0705 (20)

From Points to Multi-Object 3D Reconstruction
From Points to Multi-Object 3D ReconstructionFrom Points to Multi-Object 3D Reconstruction
From Points to Multi-Object 3D Reconstruction
 
Draw Normal Distribution on Powerpoint
Draw Normal Distribution on PowerpointDraw Normal Distribution on Powerpoint
Draw Normal Distribution on Powerpoint
 
Using asimdhp (fp16) on Jetson Xavier CPU
Using asimdhp (fp16) on Jetson Xavier CPUUsing asimdhp (fp16) on Jetson Xavier CPU
Using asimdhp (fp16) on Jetson Xavier CPU
 
Kantocv 2-1-calibration publish
Kantocv 2-1-calibration publishKantocv 2-1-calibration publish
Kantocv 2-1-calibration publish
 
Cvim saisentan-cvpr-super-slomo-publish
Cvim saisentan-cvpr-super-slomo-publishCvim saisentan-cvpr-super-slomo-publish
Cvim saisentan-cvpr-super-slomo-publish
 
Cvim saisentan-gpu-open cl
Cvim saisentan-gpu-open clCvim saisentan-gpu-open cl
Cvim saisentan-gpu-open cl
 
Prmu iccv-2017-rolling-shutter-publish
Prmu iccv-2017-rolling-shutter-publishPrmu iccv-2017-rolling-shutter-publish
Prmu iccv-2017-rolling-shutter-publish
 
Scalable Surface Reconstruction from Point Clouds with Extreme Scale and Dens...
Scalable Surface Reconstruction from Point Clouds with Extreme Scale and Dens...Scalable Surface Reconstruction from Point Clouds with Extreme Scale and Dens...
Scalable Surface Reconstruction from Point Clouds with Extreme Scale and Dens...
 
Cvim saisentan-ellipse-publish
Cvim saisentan-ellipse-publishCvim saisentan-ellipse-publish
Cvim saisentan-ellipse-publish
 
Gpgpu tomoaki-fp16
Gpgpu tomoaki-fp16Gpgpu tomoaki-fp16
Gpgpu tomoaki-fp16
 
Cvim saisentan-cvpr-hyper depth
Cvim saisentan-cvpr-hyper depthCvim saisentan-cvpr-hyper depth
Cvim saisentan-cvpr-hyper depth
 
Cvim saisentan-4-2-tomoaki
Cvim saisentan-4-2-tomoakiCvim saisentan-4-2-tomoaki
Cvim saisentan-4-2-tomoaki
 
Cvim saisentan 半精度浮動小数点数 half
Cvim saisentan 半精度浮動小数点数 halfCvim saisentan 半精度浮動小数点数 half
Cvim saisentan 半精度浮動小数点数 half
 
OpenCV祭り (配布用)
OpenCV祭り (配布用)OpenCV祭り (配布用)
OpenCV祭り (配布用)
 
Cvim half precision floating point
Cvim half precision floating pointCvim half precision floating point
Cvim half precision floating point
 
Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation
Mind’s Eye: A Recurrent Visual Representation for Image Caption GenerationMind’s Eye: A Recurrent Visual Representation for Image Caption Generation
Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation
 
Cvim saisentan-5-2-tomoaki
Cvim saisentan-5-2-tomoakiCvim saisentan-5-2-tomoaki
Cvim saisentan-5-2-tomoaki
 
JetsonでOpenCV
 JetsonでOpenCV JetsonでOpenCV
JetsonでOpenCV
 
Cvim saisentan-cvpr-deep face
Cvim saisentan-cvpr-deep faceCvim saisentan-cvpr-deep face
Cvim saisentan-cvpr-deep face
 
Cvim saisentan-6-4-tomoaki
Cvim saisentan-6-4-tomoakiCvim saisentan-6-4-tomoaki
Cvim saisentan-6-4-tomoaki
 

Recently uploaded

Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 

Recently uploaded (9)

Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 

Neural Global Shutter: Learn to Restore Video from a Rolling Shutter Camera with Global Reset Feature

Editor's Notes

  1. Single か multiか Classical か Learning based か、と著者らは分けている。 Deformationは運動なので、1枚の画像からだと復元できない ill posed な問題 様々な制約を導入して motion estimation して、復元する Multi input では、動画が入力になるので、動きの情報を得られるので、Classical でも Learningでも motion estimation
  2. RSGR を使うと、RSともGSとも違う特徴が2点現れます。 1点目が前述の通りの「ブレ」「blur」 撮影があとの方の列は単純に露光時間が長くなるので、運動による影響をより大きく受ける そのため、画像中の行の違い、y座標の違いによってブレ度合いが変わってくる。 直線が三角形あるいは台形みたいな形に変形しているのが見える。
  3. で、2点目が文中のdiagramにあらわれています。 このdiagram の図中からGS と RSGRで撮影された同じシーンの画像があります。 2点目がこのRSGRの画面下側が暗く見えることです。 各行ごとに露光時間が変わってくるため、先に撮影が終わる行、この場合は最下行になりますが、は暗く移り、最終行、最上部は明るく、グラデーションがかった画像になります。 なお、Rolling Shutterがどちらの方向にスキャンするかはセンサ次第なので、どちらでもありえますが、後述するように方向はどちらでも問題を引き起こさないのでご心配なく。 で、diagramにもどると、 AがRSとGSを同時に撮影する光学系。ハーフミラー(?)で光線を分岐、分割し、それぞれ同じ画像が撮影できるようにキャリブレーションしておく。 で、基本的にはRSとGSで撮影されたビデオのえらーをminimizeするようにトレーニングする
  4. ネットワークは主に3種類。空間的なencoderと、時間方向のaggregator 空間方向は当然。Y座標によって明るさが変わってくるので、1フレーム内で修正が必要。 EEとあるのはExposure Encoding これは各行の露光時間を情報として入力するため。 実際は各ピクセルに露光時間の情報をを埋め込んで、RGBと露光時間の情報がModelに突っ込まれます。 SAはSpatial Attentionの略。 EEとSAの2つを使うことで露光時間の違いを補正する 前後のフレームの情報を含めるために long term temporal aggregator , short term temporal aggregator が存在する。
  5. 全部紹介していると時間がなくなるぐらい丁寧に評価しているので、論文の評価結果の一部を紹介します。
  6. 他の手法との比較。 DeblurGANとか、入力画像より劣化してる GTがあるので、比較値で一発定量比較できるのは美しい。 Fが全画面、UがUpper、MがMiddle、LがLowerな部分に限った評価。200行ずつ使った。 評価値はPSNRとSSIM。大きい数値のほうが好成績。 上から Unsupervised GS-image based deblur [11] Supervised GS-image based deblur [33] Supervised GS-video based deblur [8][32][20][40] Supervised RS correction/deblur [16][41]
  7. ボケが残ってたり、ディストーションが残ってたり、ノイズが増えてたりする STRCNN [8] DBN[32] は色のディストーションが起きている。
  8. どのステップ抜いてもダメだぜ。 T1がT2より悪い性能を示すってことは、forward path だけでラーニングすると、 Aggregator 自体を使わなかったときより性能がおちる。 Ablation Study Architecture ablation. EE Exposure Encoding SA Spatial Attention Long term aggregator (Back path) Long term Aggregator DCN to Convolution T4 (T3 and T2) T5 (T4 and DCN to Convolution) T6 T5 and no short-term temporal information
  9. どの損失関数使っても結局のところSSIMとperceptual loss の組み合わせがいい感じ SSIM 以外はへんてこなartifact が出る(とはいえ、Charbonnierとかなかなかぱっと見はわからんがな) Structure restoration に一番聴いたのは perceptual loss (ほんまかいな)
  10. Depth Estimation と Edge detection. Input Ours GTを見比べると、やはりRSの影響があるとDepth Estimation もEdge detectionも性能が劣る。 もとの画像が歪んでるんだからエッジはもいうまでもなし、Depth Estimation でも、改善する。 結構GTとOursの間に遜色ないレベルで復元できる。
  11. Trainingとは別のRSGRを使った結果。 トレーニングは下が暗くて上が明るい、下から上へのラスタスキャン、今回の左(入力画像)は上から下へのラスタスキャン それでも、RSの影響もボケの影響も減ってるので、センサ固有のトレーニングではなく、汎化性能(?)がある。
  12. Limitation として、静止したシーンに対してはRSを普通に使ったほうがいい(当然本手法も適用できる!、けどありがたみがない) それから最後のスキャンらいんがどうしても明るくなりすぎるので、露光時間を調節するのが大事。 もしかしたらdynamic range も上がるんちゃうう?(future work)