【DL輪読会】WIRE: Wavelet Implicit Neural Representations

•Download as PPTX, PDF•

0 likes•756 views

Deep Learning JP

2023/1/20 Deep Learning JP http://deeplearning.jp/seminar-2/

Technology

DEEP LEARNING JP
[DL Papers]
“WIRE: Wavelet Implicit Neural Representations”
Presenter: Takahiro Maeda D2
(Toyota Technological Institute)
http://deeplearning.jp/

目次
1. 書誌情報
2. 概要
3. 研究背景
4. 提案手法
5. 実験結果
6. 考察・所感
2

1. 書誌情報
紹介論文
タイトル: WIRE: Wavelet Implicit Neural Representations
出典: ArXiv (2023. 1)
著者: Vishwanath Saragadam et. al.
所属: Rice University
選書理由
NeRFなどのImplicit Neural Representation (INR) と，
活性化関数との相性について初見だったため
※引用は最後にまとめてあります．特に明示が無い場合は紹介論文から引用
3

2. 概要
4
WIRE
• NeRFなどの画像用INRの活性化関数にWaveletを提案
• Waveletが画像表現に適しているため，正しい帰納バイアスを
獲得
• ノイズ除去，SR，任意視点生成などで精度向上

3. 研究背景
5
• Implicit Neural Representations （INR)
近年，INRの性能は，活性化関数に大きく左右されるらしいと
判明
[1]
• Grid-based 手法
• INR (NeRF)
𝜃
(座標）
MLP
重み保持
グリッドデータ保持
• 保持すべきメモリが大き
い
• 解像度が限定される
• コンパクトな重みのみを
保持
• 任意解像度で生成可
[2]

3. 研究背景
6
• 活性化関数とINRの性能
– ReLU (default NeRF) 処理重，精度悪，ノイズ耐性悪
– Sine波 (SIREN[3])，Gaussian[4] 処理軽，精度良，ノイズ耐性悪
• 直線で自然信号を近似するため，より層を重ねる必要
• 細部の再現には，positional encodingなどの追加の工夫必要
• 周期的な信号に強
い
• 局所的な信号に強い
• 曲線を持つため，少ない層数で自然信号を近似
可
• 表現力が高いため，ノイズ信号も近似してしま
う

3. 研究背景
7
• 連続Wavelet変換
– 局所的な波の集合によって，信号を時間-周波数空間へ変換
– 非定常な信号（現実におけるほぼすべての信号）の解析によく用いられる
– JPEGの上位互換であるJPEG2000でも用いられる
[5]
Wavelet

4. 提案手法
8
• WIRE: Wavelet Implicit Neural Representations
– INRの活性化関数に Waveletを提案
– 局所的，周期的信号どちらにも対応可
– JPEG2000のようにWaveletが画像表現に適しているため，
正しい帰納バイアスを獲得できノイズへの頑健性向上
（これ以上の説明は無，デノイズでの精度向上で証明）
– ネットワーク内部では，Waveletを複素数のまま処理する
処理軽，精度良，ノイズ耐性良

5. 実験結果
9
• パラメータ選択
sine波，Gaussian単体よりも高い性能

6. 考察・所感
13
• 所感
– タスクごとに，現状より適したモデルは存在するはず
– INRの領域でも，モデル構造の最適化が進んでいる印象
– MLPが現段階では採用されているが，置き換わっていくのかもしれない

引用
14
[1] 図 http://www.sanko-shoko.net/note.php?id=js3z
[2] Mildenhall, Ben, et al. "Nerf: Representing scenes as neural radiance
fields for view synthesis." Communications of the ACM 65.1 (2021): 99-
106.
[3] Sitzmann, Vincent, et al. "Implicit neural representations with periodic
activation functions." Advances in Neural Information Processing
Systems 33 (2020): 7462-7473.

引用
15
[4] Ramasinghe, Sameera, and Simon Lucey. "Beyond periodicity:
Towards a unifying framework for activations in coordinate-
mlps." European Conference on Computer Vision. Springer, Cham, 2022.
[5] https://friedrice-
mushroom.hatenablog.com/entry/2019/08/31/113915

What's hot

動画認識サーベイv1（メタサーベイ）cvpaper. challenge

【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge

Curriculum Learning （関東CV勉強会）Yoshitaka Ushiku

StyleGAN解説 CVPR2019読み会@DeNAKento Doi

生成モデルの Deep LearningSeiya Tokui

【メタサーベイ】Vision and Language のトップ研究室/研究者cvpaper. challenge

【メタサーベイ】Neural Fieldscvpaper. challenge

【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP

【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? Deep Learning JP

SSII2020TS: 機械学習モデルの判断根拠の説明〜 Explainable AI 研究の近年の展開〜SSII

backbone としての timm 入門Takuji Tahara

近年のHierarchical Vision TransformerYusuke Uchida

モデルではなく、データセットを蒸留するTakahiro Kubo

【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked AutoencodersDeep Learning JP

【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"Deep Learning JP

「世界モデル」と関連研究についてMasahiro Suzuki

【DL輪読会】時系列予測 Transfomers の精度向上手法Deep Learning JP

[DL輪読会]"Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,0...Deep Learning JP

【DL輪読会】Dropout Reduces UnderfittingDeep Learning JP

実装レベルで学ぶVQVAEぱんいちすみもと

What's hot (20)

動画認識サーベイv1（メタサーベイ）

【メタサーベイ】基盤モデル / Foundation Models

Curriculum Learning （関東CV勉強会）

StyleGAN解説 CVPR2019読み会@DeNA

生成モデルの Deep Learning

【メタサーベイ】Vision and Language のトップ研究室/研究者

【メタサーベイ】Neural Fields

【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)

【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?

SSII2020TS: 機械学習モデルの判断根拠の説明〜 Explainable AI 研究の近年の展開〜

backbone としての timm 入門

近年のHierarchical Vision Transformer

モデルではなく、データセットを蒸留する

【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders

【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"

「世界モデル」と関連研究について

【DL輪読会】時系列予測 Transfomers の精度向上手法

[DL輪読会]"Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,0...

【DL輪読会】Dropout Reduces Underfitting

実装レベルで学ぶVQVAE

Recently uploaded

業務で生成AIを活用したい人のための生成AI入門講座（社外公開版） 2024年4月作成Hiroshi Tomioka

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi

デジタル・フォレンジックの最新動向（2024年4月27日情洛会総会特別講演スライド）UEHARA, Tetsutaro

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察～Text-to-MusicとText-To-ImageかつImage-to-Music...博三太田

CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か？akihisamiyanaga1

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab

【早稲田AI研究会　講義資料】3DスキャンとTextTo3Dのツールを知ろう！(Vol.1)Hiroki Ichikura

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama

Recently uploaded (9)

業務で生成AIを活用したい人のための生成AI入門講座（社外公開版） 2024年4月作成

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer

デジタル・フォレンジックの最新動向（2024年4月27日情洛会総会特別講演スライド）

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察～Text-to-MusicとText-To-ImageかつImage-to-Music...

CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か？

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案

【早稲田AI研究会　講義資料】3DスキャンとTextTo3Dのツールを知ろう！(Vol.1)

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf

【DL輪読会】WIRE: Wavelet Implicit Neural Representations

1. DEEP LEARNING JP [DL Papers] “WIRE: Wavelet Implicit Neural Representations” Presenter: Takahiro Maeda D2 (Toyota Technological Institute) http://deeplearning.jp/

2. 目次 1. 書誌情報 2. 概要 3. 研究背景 4. 提案手法 5. 実験結果 6. 考察・所感 2

3. 1. 書誌情報紹介論文タイトル: WIRE: Wavelet Implicit Neural Representations 出典: ArXiv (2023. 1) 著者: Vishwanath Saragadam et. al. 所属: Rice University 選書理由 NeRFなどのImplicit Neural Representation (INR) と，活性化関数との相性について初見だったため ※引用は最後にまとめてあります．特に明示が無い場合は紹介論文から引用 3

4. 2. 概要 4 WIRE • NeRFなどの画像用INRの活性化関数にWaveletを提案 • Waveletが画像表現に適しているため，正しい帰納バイアスを獲得 • ノイズ除去，SR，任意視点生成などで精度向上

5. 3. 研究背景 5 • Implicit Neural Representations （INR) 近年，INRの性能は，活性化関数に大きく左右されるらしいと判明 [1] • Grid-based 手法 • INR (NeRF) 𝜃 (座標） MLP 重み保持グリッドデータ保持 • 保持すべきメモリが大きい • 解像度が限定される • コンパクトな重みのみを保持 • 任意解像度で生成可 [2]

6. 3. 研究背景 6 • 活性化関数とINRの性能 – ReLU (default NeRF) 処理重，精度悪，ノイズ耐性悪 – Sine波 (SIREN[3])，Gaussian[4] 処理軽，精度良，ノイズ耐性悪 • 直線で自然信号を近似するため，より層を重ねる必要 • 細部の再現には，positional encodingなどの追加の工夫必要 • 周期的な信号に強い • 局所的な信号に強い • 曲線を持つため，少ない層数で自然信号を近似可 • 表現力が高いため，ノイズ信号も近似してしまう

7. 3. 研究背景 7 • 連続Wavelet変換 – 局所的な波の集合によって，信号を時間-周波数空間へ変換 – 非定常な信号（現実におけるほぼすべての信号）の解析によく用いられる – JPEGの上位互換であるJPEG2000でも用いられる [5] Wavelet

8. 4. 提案手法 8 • WIRE: Wavelet Implicit Neural Representations – INRの活性化関数に Waveletを提案 – 局所的，周期的信号どちらにも対応可 – JPEG2000のようにWaveletが画像表現に適しているため，正しい帰納バイアスを獲得できノイズへの頑健性向上（これ以上の説明は無，デノイズでの精度向上で証明） – ネットワーク内部では，Waveletを複素数のまま処理する処理軽，精度良，ノイズ耐性良

9. 5. 実験結果 9 • パラメータ選択 sine波，Gaussian単体よりも高い性能

10. 5. 実験結果 10 • denoising

11. 5. 実験結果 11 • Super Resolution

12. 12 • Occupancy

13. 6. 考察・所感 13 • 所感 – タスクごとに，現状より適したモデルは存在するはず – INRの領域でも，モデル構造の最適化が進んでいる印象 – MLPが現段階では採用されているが，置き換わっていくのかもしれない

14. 引用 14 [1] 図 http://www.sanko-shoko.net/note.php?id=js3z [2] Mildenhall, Ben, et al. "Nerf: Representing scenes as neural radiance fields for view synthesis." Communications of the ACM 65.1 (2021): 99- 106. [3] Sitzmann, Vincent, et al. "Implicit neural representations with periodic activation functions." Advances in Neural Information Processing Systems 33 (2020): 7462-7473.

15. 引用 15 [4] Ramasinghe, Sameera, and Simon Lucey. "Beyond periodicity: Towards a unifying framework for activations in coordinate- mlps." European Conference on Computer Vision. Springer, Cham, 2022. [5] https://friedrice- mushroom.hatenablog.com/entry/2019/08/31/113915

Editor's Notes

という論文を紹介します．
まず，書誌情報です．

【DL輪読会】WIRE: Wavelet Implicit Neural Representations

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (9)

【DL輪読会】WIRE: Wavelet Implicit Neural Representations

Editor's Notes