第61回 CV勉強会@関東「CVPR2023読み会(前編)」
State Space Models
for Event Cameras
2024/07/07 takmin
自己紹介
2
株式会社ビジョン&ITラボ 代表取締役
皆川 卓也(みながわ たくや)
博士(工学)
「コンピュータビジョン勉強会@関東」主催
株式会社フューチャースタンダード 技術顧問
略歴:
1999-2003年
日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ
セールス、プロジェクトマネジメント、サポート等の業務に従事
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
2007-2010年
慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻
単位取得退学後、博士号取得(2014年)
2009年-現在
フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事(2018年法人化)
http://visitlab.jp
事業内容
1. R&Dコンサルティング
2. 受託研究/開発
3. 開発マネジメント
4. 開発コンサルティング
5. ビジネス化コンサルティング
3
IoT管理ミドルウェア:シナリオエンジン
4
 ノーコードで人やモノなどを「動的に」管理するためのルールエンジ
ン
 「いつ」、「どこで」、「誰(何)が」、「何をした」かをトリガーに、サイ
ネージやAR、Webサーバーなどのアクションを制御できる。
 特許取得済み
アクション
人:歩く 人:歩く
AR探索アドベンチャー
5
 スマホでイラスト、ランド
マーク、ものなどを撮影
すると、キャラクターやア
イテムが現れてストー
リーが進むアドベン
チャーゲーム。
 アプリインストール不要
 シナリオエンジンにより、
ユーザの行動や天候、混
雑具合によって動的なス
トーリー変更が可能
拡張現実感(AR)
紹介する論文
7
 State Space Models for Event Cameras
 Nikola Zubic, Mathias Gehrig, Davide Scaramuzza
 Robotics and Perception Group, University of Zurich, Switzerland
 イベントカメラを用いた物体検出等を行う従来手法は、学習測度の
問題や、学習時と異なる周波数に対応できない問題を、状態空間
モデル(SSM)を導入することで解決
イベントカメラ
8
 輝度の変化のみ転送
 非同期なイベントシーケンスを発生
 低遅延、ブラー無し、High Dynamic Range
Related Work
9
 Gehrig, M., & Scaramuzza, D. (2023). RecurrentVisionTransformers for
Object Detection with Event Cameras. Proceedings of the IEEE Computer
Society Conference on ComputerVision and Pattern Recognition (CVPR)
 VisionTransformer + LSTMを用いて、イベントカメラから物体検出
Related Work
10
 Gehrig, M., & Scaramuzza, D. (2023). RecurrentVisionTransformers for
Object Detection with Event Cameras. Proceedings of the IEEE Computer
Society Conference on ComputerVision and Pattern Recognition (CVPR)
 VisionTransformer + LSTMを用いて、イベントカメラから物体検出
𝒆𝑘 = (𝑥𝑘, 𝑦𝑘, 𝑡𝑘, 𝑝𝑘)
画素の
座標
発生
時刻
変化方向
(正/負)
(2𝑇, 𝐻, 𝑊)とすることで、
画像として処理
Related Work
11
 Gehrig, M., & Scaramuzza, D. (2023). RecurrentVisionTransformers for
Object Detection with Event Cameras. Proceedings of the IEEE Computer
Society Conference on ComputerVision and Pattern Recognition (CVPR)
 VisionTransformer + LSTMを用いて、イベントカメラから物体検出
空間内での
Local Window
Self-Attention
空間内での
Dilated
Attention
本手法
12
 LSTMを状態空間モデル(State Space Model)に置き換え
る
 RVT Block → SSM-ViT Block
SSM-ViT Block
状態空間モデル(SSM)の利用
13
SSM利用のメリット:
 既存手法と比べて、長い時系列データを扱える
 学習が高速
 学習時と推論時で異なる周波数を扱うことができる。
 今回、S4、S4D、S5というSSMを使用。
 次のスライドから、S4、S4D、S5に至るSSMの進化を簡単に解
説
HiPPO
14
 Gu,A., Dao,T., Ermon, S., Rudra,A., & Ré, C. (2020). HiPPO: Recurrent
memory with optimal polynomial projections.Advances in Neural Information
Processing Systems (NeurIPS).
 系列データを関数(直交多項式の和)で近似することで、理論上無限長の
系列を扱うことができる。
HiPPO
15
 Gu,A., Dao,T., Ermon, S., Rudra,A., & Ré, C. (2020). HiPPO: Recurrent
memory with optimal polynomial projections.Advances in Neural Information
Processing Systems (NeurIPS).
 系列データを関数(直交多項式の和)で近似することで、理論上無限長の
系列を扱うことができる。
任意の関数𝑓(𝑡)
からサンプリングし
た系列データ𝑓𝑖
系列データをN個の
直交多項式へ投影
𝜇(𝑡𝑖)
: 測度(=データへの重み)
基底関数(直交多項
式)の係数𝑐(𝑡)
係数𝑐(𝑡)を逐次的に更新
離散化
𝐴𝑘はサンプリング間隔∆t
に依存しない(学習時と推
論時に異なる周波数に対
応)
LSSL
16
 Gu,A., Johnson, I., Goel, K., Saab, K., Dao,T., Rudra,A., & Ré, C. (2021). Combining Recurrent,
Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural
Information Processing Systems (NeurIPS)
 HiPPOを状態空間モデルへ拡張
 逐次処理を畳み込み処理として並列化
LSSL
17
 Gu,A., Johnson, I., Goel, K., Saab, K., Dao,T., Rudra,A., & Ré, C. (2021). Combining Recurrent,
Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural
Information Processing Systems (NeurIPS)
 HiPPOを状態空間モデルへ拡張
 逐次処理を畳み込み処理として並列化
状態空間モデル
ሶ
𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡
𝑦 𝑡 = 𝐂𝑥 𝑡 + 𝐃𝑢 𝑡
入力
内部状態
出力
HiPPO
ሶ
𝑐 𝑡 = 𝐀𝑐 𝑡 + 𝐁𝑓 𝑡
LSSL
18
 Gu,A., Johnson, I., Goel, K., Saab, K., Dao,T., Rudra,A., & Ré, C. (2021). Combining Recurrent,
Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural
Information Processing Systems (NeurIPS)
 HiPPOを状態空間モデルへ拡張
 逐次処理を畳み込み処理として並列化
状態空間モデル
ሶ
𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡
𝑦 𝑡 = 𝐂𝑥 𝑡 + 𝐃𝑢 𝑡
入力
内部状態
出力
離散化状態空間モデル
𝑥𝑘 = ഥ
𝐀𝑥𝑘−1 + ഥ
𝐁𝑢𝑘
𝑦𝑘 = ҧ
𝐂𝑥𝑘 + ഥ
𝐃𝑢𝑘
LSSL
19
 Gu,A., Johnson, I., Goel, K., Saab, K., Dao,T., Rudra,A., & Ré, C. (2021). Combining Recurrent,
Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural
Information Processing Systems (NeurIPS)
 HiPPOを状態空間モデルへ拡張
 逐次処理を畳み込み処理として並列化
状態空間モデル
ሶ
𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡
𝑦 𝑡 = 𝐂𝑥 𝑡 + 𝐃𝑢 𝑡
入力
内部状態
出力
離散化状態空間モデル
𝑥𝑘 = ഥ
𝐀𝑥𝑘−1 + ഥ
𝐁𝑢𝑘
𝑦𝑘 = ҧ
𝐂𝑥𝑘 + ഥ
𝐃𝑢𝑘
離散化状態空間モデルを展開すると、畳み込み演算
に変換できる
(ഥ
𝐃𝑢𝑘はSkip Connectionとみなして省略)
𝑦𝑘 = ҧ
𝐂(ഥ
𝐀𝑥𝑘−1 + ഥ
𝐁𝑢𝑘)
↓
𝑦𝑘 = ҧ
𝐂ഥ
𝐀𝑥𝑘−1 + ҧ
𝐂ഥ
𝐁𝑢𝑘
↓
𝑦𝑘 = ҧ
𝐂ഥ
𝐀𝟐
𝑥𝑘−2 + ҧ
𝐂ഥ
𝐀ഥ
𝐁𝑢𝑘−1 + ҧ
𝐂ഥ
𝐁𝑢𝑘
↓
↓
𝑦𝑘 = ҧ
𝐂ഥ
𝐀𝒌ഥ
𝐁𝑢0 + ҧ
𝐂ഥ
𝐀𝒌−𝟏ഥ
𝐁𝑢1 + ⋯ + ҧ
𝐂ഥ
𝐀ഥ
𝐁𝑢𝑘−1 + ҧ
𝐂ഥ
𝐁𝑢𝑘
↓
𝑦 = ഥ
𝑲 ∗ 𝒖
ഥ
𝑲 = ҧ
𝐂ഥ
𝐁, ҧ
𝐂ഥ
𝑨ഥ
𝐁, … , ҧ
𝐂ഥ
𝐀𝐿−1ഥ
𝐁
…
S4
20
 Gu,A., Goel, K., & Ré, C. (2022). Efficiently Modeling Long Sequences
With Structured State Spaces. International Conference on Learning
Representations (ICLR).
 畳み込みカーネルഥ
𝑲の計算を様々な数学的テクニックを用いて簡
略化
S4
21
 Gu,A., Goel, K., & Ré, C. (2022). Efficiently Modeling Long SequencesWith
Structured State Spaces. International Conference on Learning Representations
(ICLR).
 畳み込みカーネル𝑲の計算を様々な数学的テクニックを用いて簡略化
Diagonal Plus Low-Rank
𝑨 = 𝚲 − 𝒑𝒒∗
対角行列と低階級の和
ሶ
𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡
𝑦 𝑡 = 𝐂𝑥 𝑡
周波数領域で畳
み込みカーネル
𝑲を生成
周波数領域で
𝒖と𝑲を乗算
(=時間領域で
畳み込み)
入力信号𝒖を
フーリエ変換
出信号𝒚を逆
フーリエ変換
S4D
22
 Gu,A., Gupta,A., Goel, K., & Ré, C. (2022). On the Parameterization and
Initialization of Diagonal State Space Models. Advances in Neural Information
Processing Systems (NeurIPS)
 HiPPO行列のDPLRからlow-rank項を取り除き、対角行列のみの形にして
も、実験的にうまくいくことがわかっている。
 この現象を数学的に解析し、S4より簡易な手法を提案
S4D
23
 Gu,A., Gupta,A., Goel, K., & Ré, C. (2022). On the Parameterization and
Initialization of Diagonal State Space Models. Advances in Neural Information
Processing Systems (NeurIPS)
 HiPPO行列のDPLRからlow-rank項を取り除き、対角行列のみの形にして
も、実験的にうまくいくことがわかっている。
 この現象を数学的に解析し、より簡易な手法を提案
対角行列
S5
24
 Smith, J.T. H.,Warrington,A., & Linderman, S.W. (2023). Simplified State Space Layers
for Sequence Modeling. International Conference on Learning Representation (ICLR)
 S4は入力𝒖のチャネルを個別に処理するのに対し、S5は全チャネルを一括で処理
 S4D同様DPLRの対角成分のみ使用
 畳み込み処理の代わりに再帰処理を並列化(Parallel Scan)
本手法
25
 LSTMを状態空間モデル(State Space Model)に置き換え
る
 RVT Block → SSM-ViT Block
SSM-ViT Block
Low-pass bandlimiting
26
 学習時よりも高い周波数の信号に対し推定を行う場合、
エイリアシングの問題が発生
 以下の2つの対策を取る
 Output Masking:
 畳み込みカーネル𝑲の周波数成分𝑓𝑛を選択的にマスクする(𝛼 = 1の
時、Nyquist limit)
 𝐶𝑛 = ൝
𝐶𝑛 if 𝑓𝑛 ≤
𝛼
2
,
0 otherwise,
 𝐇2 Norm
 損失関数に、畳み込みカーネル𝑲の𝜔𝑚𝑖𝑛以上の周波数スペクトラム
の和を加える
Experiments
27
 以下の2つのイベントカメラデータセットに対して評価
 Gen 1
 https://www.prophesee.ai/2020/01/24/prophesee-gen1-automotive-
detection-dataset/
 1 Mpx
 https://www.prophesee.ai/2020/11/24/automotive-megapixel-event-
based-dataset/
 ベースモデル:ViT-SSM-B
 軽量モデル:ViT-SSM-S
 学習はTimeWindow Size 50ms (20Hz)、binの数は10で
行った
Gen1/1 Mpxデータセットでの評価
28
 Competitiveな性能を非常に速い推論速度で達成
異なる周波数での評価
29
 周波数が上がるにつれ、他の手法が大幅に性能を落と
すのに対し、本手法での劣化はわずか
SSMs: initialization & bandlimiting
30
 SSMのモデルと初期化方法、周波数制限パラメータ毎の
比較(初期化法の詳細はS4Dの論文参照)
モデル名-初期化法
SSM Utilization Analysis
31
 各層のRVT BlockやSSM-ViT Blockの再帰性がどれだけ
性能に影響をしているかの評価
Evaluation at different frequencies
32
DSECデータセットでの評価
33
 1 Mpxデータセットで学習したモデルでDSECデータセットを評価
 結果動画
 https://youtu.be/WRZZJn6Me9M?si=g5JBNIccSr5sL6-F&t=175
結論
34
 イベントカメラの物体検出タスクに対して、Vision
TransformerとState Space Modelを利用することで、高周
波数帯で、従来法に比べて30 mAP以上高い精度と33%
の学習速度の向上を達成した。
 SSM-ViTモデルは、学習時とは異なる周波数での推論に
対しても、追加学習無しで適応可能。
 更にOutput Maskingと𝐇2 Norm調整によって特に高周
波で問題となるエイリアシングを抑えることができた。

第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras

  • 1.
  • 2.
    自己紹介 2 株式会社ビジョン&ITラボ 代表取締役 皆川 卓也(みながわたくや) 博士(工学) 「コンピュータビジョン勉強会@関東」主催 株式会社フューチャースタンダード 技術顧問 略歴: 1999-2003年 日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ セールス、プロジェクトマネジメント、サポート等の業務に従事 2004-2009年 コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事 2007-2010年 慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻 単位取得退学後、博士号取得(2014年) 2009年-現在 フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事(2018年法人化) http://visitlab.jp
  • 3.
    事業内容 1. R&Dコンサルティング 2. 受託研究/開発 3.開発マネジメント 4. 開発コンサルティング 5. ビジネス化コンサルティング 3
  • 4.
  • 5.
  • 6.
    紹介する論文 7  State SpaceModels for Event Cameras  Nikola Zubic, Mathias Gehrig, Davide Scaramuzza  Robotics and Perception Group, University of Zurich, Switzerland  イベントカメラを用いた物体検出等を行う従来手法は、学習測度の 問題や、学習時と異なる周波数に対応できない問題を、状態空間 モデル(SSM)を導入することで解決
  • 7.
  • 8.
    Related Work 9  Gehrig,M., & Scaramuzza, D. (2023). RecurrentVisionTransformers for Object Detection with Event Cameras. Proceedings of the IEEE Computer Society Conference on ComputerVision and Pattern Recognition (CVPR)  VisionTransformer + LSTMを用いて、イベントカメラから物体検出
  • 9.
    Related Work 10  Gehrig,M., & Scaramuzza, D. (2023). RecurrentVisionTransformers for Object Detection with Event Cameras. Proceedings of the IEEE Computer Society Conference on ComputerVision and Pattern Recognition (CVPR)  VisionTransformer + LSTMを用いて、イベントカメラから物体検出 𝒆𝑘 = (𝑥𝑘, 𝑦𝑘, 𝑡𝑘, 𝑝𝑘) 画素の 座標 発生 時刻 変化方向 (正/負) (2𝑇, 𝐻, 𝑊)とすることで、 画像として処理
  • 10.
    Related Work 11  Gehrig,M., & Scaramuzza, D. (2023). RecurrentVisionTransformers for Object Detection with Event Cameras. Proceedings of the IEEE Computer Society Conference on ComputerVision and Pattern Recognition (CVPR)  VisionTransformer + LSTMを用いて、イベントカメラから物体検出 空間内での Local Window Self-Attention 空間内での Dilated Attention
  • 11.
    本手法 12  LSTMを状態空間モデル(State SpaceModel)に置き換え る  RVT Block → SSM-ViT Block SSM-ViT Block
  • 12.
    状態空間モデル(SSM)の利用 13 SSM利用のメリット:  既存手法と比べて、長い時系列データを扱える  学習が高速 学習時と推論時で異なる周波数を扱うことができる。  今回、S4、S4D、S5というSSMを使用。  次のスライドから、S4、S4D、S5に至るSSMの進化を簡単に解 説
  • 13.
    HiPPO 14  Gu,A., Dao,T.,Ermon, S., Rudra,A., & Ré, C. (2020). HiPPO: Recurrent memory with optimal polynomial projections.Advances in Neural Information Processing Systems (NeurIPS).  系列データを関数(直交多項式の和)で近似することで、理論上無限長の 系列を扱うことができる。
  • 14.
    HiPPO 15  Gu,A., Dao,T.,Ermon, S., Rudra,A., & Ré, C. (2020). HiPPO: Recurrent memory with optimal polynomial projections.Advances in Neural Information Processing Systems (NeurIPS).  系列データを関数(直交多項式の和)で近似することで、理論上無限長の 系列を扱うことができる。 任意の関数𝑓(𝑡) からサンプリングし た系列データ𝑓𝑖 系列データをN個の 直交多項式へ投影 𝜇(𝑡𝑖) : 測度(=データへの重み) 基底関数(直交多項 式)の係数𝑐(𝑡) 係数𝑐(𝑡)を逐次的に更新 離散化 𝐴𝑘はサンプリング間隔∆t に依存しない(学習時と推 論時に異なる周波数に対 応)
  • 15.
    LSSL 16  Gu,A., Johnson,I., Goel, K., Saab, K., Dao,T., Rudra,A., & Ré, C. (2021). Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural Information Processing Systems (NeurIPS)  HiPPOを状態空間モデルへ拡張  逐次処理を畳み込み処理として並列化
  • 16.
    LSSL 17  Gu,A., Johnson,I., Goel, K., Saab, K., Dao,T., Rudra,A., & Ré, C. (2021). Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural Information Processing Systems (NeurIPS)  HiPPOを状態空間モデルへ拡張  逐次処理を畳み込み処理として並列化 状態空間モデル ሶ 𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡 𝑦 𝑡 = 𝐂𝑥 𝑡 + 𝐃𝑢 𝑡 入力 内部状態 出力 HiPPO ሶ 𝑐 𝑡 = 𝐀𝑐 𝑡 + 𝐁𝑓 𝑡
  • 17.
    LSSL 18  Gu,A., Johnson,I., Goel, K., Saab, K., Dao,T., Rudra,A., & Ré, C. (2021). Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural Information Processing Systems (NeurIPS)  HiPPOを状態空間モデルへ拡張  逐次処理を畳み込み処理として並列化 状態空間モデル ሶ 𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡 𝑦 𝑡 = 𝐂𝑥 𝑡 + 𝐃𝑢 𝑡 入力 内部状態 出力 離散化状態空間モデル 𝑥𝑘 = ഥ 𝐀𝑥𝑘−1 + ഥ 𝐁𝑢𝑘 𝑦𝑘 = ҧ 𝐂𝑥𝑘 + ഥ 𝐃𝑢𝑘
  • 18.
    LSSL 19  Gu,A., Johnson,I., Goel, K., Saab, K., Dao,T., Rudra,A., & Ré, C. (2021). Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural Information Processing Systems (NeurIPS)  HiPPOを状態空間モデルへ拡張  逐次処理を畳み込み処理として並列化 状態空間モデル ሶ 𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡 𝑦 𝑡 = 𝐂𝑥 𝑡 + 𝐃𝑢 𝑡 入力 内部状態 出力 離散化状態空間モデル 𝑥𝑘 = ഥ 𝐀𝑥𝑘−1 + ഥ 𝐁𝑢𝑘 𝑦𝑘 = ҧ 𝐂𝑥𝑘 + ഥ 𝐃𝑢𝑘 離散化状態空間モデルを展開すると、畳み込み演算 に変換できる (ഥ 𝐃𝑢𝑘はSkip Connectionとみなして省略) 𝑦𝑘 = ҧ 𝐂(ഥ 𝐀𝑥𝑘−1 + ഥ 𝐁𝑢𝑘) ↓ 𝑦𝑘 = ҧ 𝐂ഥ 𝐀𝑥𝑘−1 + ҧ 𝐂ഥ 𝐁𝑢𝑘 ↓ 𝑦𝑘 = ҧ 𝐂ഥ 𝐀𝟐 𝑥𝑘−2 + ҧ 𝐂ഥ 𝐀ഥ 𝐁𝑢𝑘−1 + ҧ 𝐂ഥ 𝐁𝑢𝑘 ↓ ↓ 𝑦𝑘 = ҧ 𝐂ഥ 𝐀𝒌ഥ 𝐁𝑢0 + ҧ 𝐂ഥ 𝐀𝒌−𝟏ഥ 𝐁𝑢1 + ⋯ + ҧ 𝐂ഥ 𝐀ഥ 𝐁𝑢𝑘−1 + ҧ 𝐂ഥ 𝐁𝑢𝑘 ↓ 𝑦 = ഥ 𝑲 ∗ 𝒖 ഥ 𝑲 = ҧ 𝐂ഥ 𝐁, ҧ 𝐂ഥ 𝑨ഥ 𝐁, … , ҧ 𝐂ഥ 𝐀𝐿−1ഥ 𝐁 …
  • 19.
    S4 20  Gu,A., Goel,K., & Ré, C. (2022). Efficiently Modeling Long Sequences With Structured State Spaces. International Conference on Learning Representations (ICLR).  畳み込みカーネルഥ 𝑲の計算を様々な数学的テクニックを用いて簡 略化
  • 20.
    S4 21  Gu,A., Goel,K., & Ré, C. (2022). Efficiently Modeling Long SequencesWith Structured State Spaces. International Conference on Learning Representations (ICLR).  畳み込みカーネル𝑲の計算を様々な数学的テクニックを用いて簡略化 Diagonal Plus Low-Rank 𝑨 = 𝚲 − 𝒑𝒒∗ 対角行列と低階級の和 ሶ 𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡 𝑦 𝑡 = 𝐂𝑥 𝑡 周波数領域で畳 み込みカーネル 𝑲を生成 周波数領域で 𝒖と𝑲を乗算 (=時間領域で 畳み込み) 入力信号𝒖を フーリエ変換 出信号𝒚を逆 フーリエ変換
  • 21.
    S4D 22  Gu,A., Gupta,A.,Goel, K., & Ré, C. (2022). On the Parameterization and Initialization of Diagonal State Space Models. Advances in Neural Information Processing Systems (NeurIPS)  HiPPO行列のDPLRからlow-rank項を取り除き、対角行列のみの形にして も、実験的にうまくいくことがわかっている。  この現象を数学的に解析し、S4より簡易な手法を提案
  • 22.
    S4D 23  Gu,A., Gupta,A.,Goel, K., & Ré, C. (2022). On the Parameterization and Initialization of Diagonal State Space Models. Advances in Neural Information Processing Systems (NeurIPS)  HiPPO行列のDPLRからlow-rank項を取り除き、対角行列のみの形にして も、実験的にうまくいくことがわかっている。  この現象を数学的に解析し、より簡易な手法を提案 対角行列
  • 23.
    S5 24  Smith, J.T.H.,Warrington,A., & Linderman, S.W. (2023). Simplified State Space Layers for Sequence Modeling. International Conference on Learning Representation (ICLR)  S4は入力𝒖のチャネルを個別に処理するのに対し、S5は全チャネルを一括で処理  S4D同様DPLRの対角成分のみ使用  畳み込み処理の代わりに再帰処理を並列化(Parallel Scan)
  • 24.
    本手法 25  LSTMを状態空間モデル(State SpaceModel)に置き換え る  RVT Block → SSM-ViT Block SSM-ViT Block
  • 25.
    Low-pass bandlimiting 26  学習時よりも高い周波数の信号に対し推定を行う場合、 エイリアシングの問題が発生 以下の2つの対策を取る  Output Masking:  畳み込みカーネル𝑲の周波数成分𝑓𝑛を選択的にマスクする(𝛼 = 1の 時、Nyquist limit)  𝐶𝑛 = ൝ 𝐶𝑛 if 𝑓𝑛 ≤ 𝛼 2 , 0 otherwise,  𝐇2 Norm  損失関数に、畳み込みカーネル𝑲の𝜔𝑚𝑖𝑛以上の周波数スペクトラム の和を加える
  • 26.
    Experiments 27  以下の2つのイベントカメラデータセットに対して評価  Gen1  https://www.prophesee.ai/2020/01/24/prophesee-gen1-automotive- detection-dataset/  1 Mpx  https://www.prophesee.ai/2020/11/24/automotive-megapixel-event- based-dataset/  ベースモデル:ViT-SSM-B  軽量モデル:ViT-SSM-S  学習はTimeWindow Size 50ms (20Hz)、binの数は10で 行った
  • 27.
  • 28.
  • 29.
    SSMs: initialization &bandlimiting 30  SSMのモデルと初期化方法、周波数制限パラメータ毎の 比較(初期化法の詳細はS4Dの論文参照) モデル名-初期化法
  • 30.
    SSM Utilization Analysis 31 各層のRVT BlockやSSM-ViT Blockの再帰性がどれだけ 性能に影響をしているかの評価
  • 31.
  • 32.
  • 33.
    結論 34  イベントカメラの物体検出タスクに対して、Vision TransformerとState SpaceModelを利用することで、高周 波数帯で、従来法に比べて30 mAP以上高い精度と33% の学習速度の向上を達成した。  SSM-ViTモデルは、学習時とは異なる周波数での推論に 対しても、追加学習無しで適応可能。  更にOutput Maskingと𝐇2 Norm調整によって特に高周 波で問題となるエイリアシングを抑えることができた。