DLゼミ (論文紹介)
XFeat: Accelerated Features for
Lightweight Image Matching
北海道大学大学院 情報科学研究院
情報理工学部門 複合情報工学分野 調和系工学研究室
博士後期課程3年 森 雄斗
2024/05/31
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
論文情報 2
タイトル
XFeat: Accelerated Features for Lightweight Image Matching
著者
Guilherme Potje1, Felipe Cadar1,2, Andre Araujo3, Renato Martins2,4,
Erickson R. Nascimento1,5
1Universidade Federal de Minas Gerais, 2Universite de Bourgogne, ICB UMR 6303 CNRS,
3Google Research, 4Universite de Lorraine, LORIA, Inria, 5Microsoft
掲載
CVPR2024
URL
GitHub
https://github.com/verlab/accelerated_features
プロジェクトページ
https://www.verlab.dcc.ufmg.br/descriptors/xfeat_cvpr24/
論文本体
https://arxiv.org/pdf/2404.19174
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
概要 (XFeat) 3
局所的特徴量の抽出と画像マッチングのための
高効率なアーキテクチャの提案
sparseとsemi-denseの2種類のモデル
汎用性が高くハードウェアに依存しない
既存手法を上回る速度(最大5倍)で同等以上の精度
Xfeat on CPU 従来手法 (SIFT) on CPU
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
概要 (XFeat) 4
Megadepth-1500の実験結果
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
背景 5
ローカルな画像特徴抽出とマッチング
Local Feature Matching (LFM)
ハイレベルなvision taskの一種
画像特徴量抽出は多くのタスクで重要
SLAM[1], 3Dモデルの自動生成[2], 画像のマッチング
最近の進歩にも関わらず、
改善のほとんどが高い計算量と複雑な実装
[1]の地図生成結果 [2]の3Dモデルの生成結果
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
関連研究 6
画像のマッチング
キーポイント検出, CNNまで多岐にわたる
最先端手法はtransformerを使用したモデル
ロバスト性と正確性の改善がメイン
特徴記述子 (feature descriptors)と画像のマッ
チング
SuperPoint[3]
自己教師ありCNN
ZippyPoint[4]
量子化と二値化を組み込んだCNN
※ 特徴量記述子 = どのように特徴を表現するか(=特徴抽出)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Xfeatの概要 7
軽量なネットワークバックボーン
ローカルの特徴量抽出
Descriptor Head (特徴量抽出)
Keypoint Head (キーポイント)
Dense Matching (密なマッチング)
ネットワークアーキテクチャ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
バックボーンの軽量化の歴史 8
処理コスト削減する方法: VGG16
概要
空間次元(𝐻𝑖,𝑗, 𝑊𝑖,𝑗)を徐々に半分にしながら、
畳み込み層のチャネル数(𝐶𝑖)を2倍にする
計算量
𝐹𝑜𝑝𝑠 = 𝐻𝑖 ∙ 𝑊𝑖 ∙ 𝐶𝑖 ∙ 𝐶𝑖+1 ∙ 𝑘2
最大で1/9まで計算量を削減
高解像度を扱う場合は効果が少ない
𝐻𝑖 ∙ 𝑊𝑖 がボトルネック
Super-Point[3]とALIKE[5]の登場
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
提案する軽量なバックボーン 9
初期の畳み込み層の空間分解能を可能な限り減らす
精度低下は、チャネル配分の再構成で改善
十分なチャネル数 (128)に達するま
で、空間分解能を半分にするごとに
チャネル数を3倍にする
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Local feature extraction 10
Multi scaleな特徴量をマージすることで
特徴マップ𝐹 ∈ ℝ
𝐻
8
×
𝑊
8
×64
を抽出
Feature Pyramid Networks[6]により、ネットワーク受容野が
増加
𝐹𝑖,𝑗が確信を持ってマッチングできる確率のマップ
𝑅 ∈ ℝ
𝐻
8×
𝑊
8 ×64
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
keypoint head 11
処理方法はSuperPoint[3]と同様
1/8になった最終エンコーダの特徴量を使用
平坦化した8x8グリッド内のキーポイントを分類
SuperPointと異なる点
Keypointの検出専用に並列ブランチを使用
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
dense matching: ピクセル対応のマッチング 12
信頼性マップ𝑅𝑖,𝑗 を用いて画像領域を選択
元の空間分解能の1/8を使うことで、メモリと計算量を大幅に節約
その後、Descriptors 𝐹を使用したピクセルレベルでの
マッチングを行う
𝑜 = 𝑀𝐿𝑃(𝑐𝑜𝑛𝑐𝑎𝑡 𝑓𝑎, 𝑓𝑏 )
subset 𝐹𝑠 ∈ 𝐹
𝑓𝑎 ∈ 𝐹1
𝑥, 𝑦 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝒐 𝑖, 𝑗 ,
𝑖 ∈ 1, … , 8
𝑖 ∈ 1, … , 8
一致した
offsetの座標
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験設定 13
2つのモデル
sparse (Xfeat)
keypoint heatmap 𝐾 から最大4096個を抽出
𝑠𝑐𝑜𝑟𝑒 = 𝐾𝑖,𝑗 ∙ 𝑅𝑖,𝑗
semi-dense (XFeat*)
入力画像サイズを0.65と1.3のスケールで画像処理
上位10,000個の特徴量を抽出
実験タスク
Relative pose estimation (相対的ポーズ推定)
Homography estimation(ホモグラフィ推定)
Visual localization(自己位置+姿勢の推定)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Relative pose estimation 14
データセットの特徴
視点と照明が同時に大きく変化
定性評価の結果
既存手法よりも検出とマッチング精度に優れている
汎用性も高い
Megadepth-1500[7]の定性評価
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Relative pose estimation 15
ベースの手法であるALIKEより5倍高速
semi-denseの結果の場合、Fastの中では最高スコアを獲得
Megadepth-1500[7]の定量評価
@5°
=最大角度誤差が5°以下
平均インライア率
=
正しい対応関係
全マッチングの対応関係
記述子の次元数
f: 浮動小数点
b: バイナリベース
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Relative pose estimation 16
ベースの手法であるALIKEより5倍高速
semi-denseの結果の場合、Fastの中では最高スコアを獲得
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Homography estimation 17
中程度から強い視点移動と照明変化がある
2つの平面画像
評価にはHPaches[8]を使用
HPatches[8]のデータセット
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Homography estimation 18
他の手法と同等な精度を達成
照明変化と視点変化のどちらも対応可能
HPatchesによる定量評価
MHA =
変換行列(ホモグラ
フィ行列)で変換後と
元画像の誤差平均
ホモグラフィ行列の例[9]
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Visual localization 19
画像を使用した現在位置特定
Aachen: 昼と夜のシーンの画像とカメラの場所
昼夜画像のマッチングは難易度が高い
Aachen[10]のデータセットと結果
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Visual localization 20
最先端のSuperPointやDISKの精度と同程度
少なくとも9倍高速
リソースに制約のあるシステムで効率的に動作
Aachenのカメラポーズ精度の定量評価
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Ablation (アブレーションスタディ) 21
導入した戦略は効果あり
1. 追加の合成画像の精度向上
2. ネットワークのチャネル数の削減
3. keypoint headを並列ブランチにしない場合
4. マッチ精密化モジュール
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
まとめ 22
局所的特徴量の抽出と画像マッチングのための
高効率なアーキテクチャの提案
sparseとsemi-denseの2種類のモデル
汎用性が高くハードウェアに依存しない
既存手法を上回る速度(最大5倍)で同等以上の精度
Xfeat on CPU 従来手法 (SIFT) on CPU
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
参考文献 23
[1] Raul Mur-Artal and Juan D Tardos. Orb-slam2: An open-source slam system for monocular, stereo, and rgb-d cameras. IEEE
Trans. on Robotics., 33(5):1255–1262, 2017.
[2] Guilherme Potje, Gabriel Resende, Mario Campos, and Erickson R Nascimento. Towards an efficient 3d model estimation
methodology for aerial and ground images. Mach. Vis. and Applications., 28:937–952, 2017.
[3] Daniel DeTone, Tomasz Malisiewicz, and Andrew Rabinovich. Superpoint: Self-supervised interest point detection and
description. In CVPRW, pages 224–236, 2018.
[4] Menelaos Kanakis, Simon Maurer, Matteo Spallanzani, Ajad Chhatkuli, and Luc Van Gool. Zippypoint: Fast interest point
detection, description, and matching through mixed precision discretization. In CVPRW, pages 6113–6122, 2023.
[5] Xiaoming Zhao, Xingming Wu, Jinyu Miao, Weihai Chen, Peter CY Chen, and Zhengguo Li. Alike: Accurate and lightweight
keypoint detection and descriptor extraction. IEEE TMM, 2022.
[6] Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for
object detection. In CVPR, pages 2117–2125, 2017.
[7] Zhengqi Li and Noah Snavely. Megadepth: Learning singleview depth prediction from internet photos. In CVPR, pages 2041–
2050, 2018.
[8] Vassileios Balntas, Karel Lenc, Andrea Vedaldi, and Krystian Mikolajczyk. Hpatches: A benchmark and evaluation of
handcrafted and learned local descriptors. In CVPR, pages 5173–5182, 2017.
[9] Deepでポン!Deep Learningによるホモグラフィ推定技術の調査(コード有り), ABEJA Tech Blog, https://tech-
blog.abeja.asia/entry/awesome-deep-homography-202004, 2024年5月30日参照
[10] Torsten Sattler, Will Maddern, Carl Toft, Akihiko Torii, Lars Hammarstrand, Erik Stenborg, Daniel Safari, Masatoshi Okutomi,
Marc Pollefeys, Josef Sivic, et al. Benchmarking 6dof outdoor visual localization in changing conditions. In CVPR, pages 8601–
8610, 2018.

【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching

  • 1.
    DLゼミ (論文紹介) XFeat: AcceleratedFeatures for Lightweight Image Matching 北海道大学大学院 情報科学研究院 情報理工学部門 複合情報工学分野 調和系工学研究室 博士後期課程3年 森 雄斗 2024/05/31
  • 2.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 論文情報 2 タイトル XFeat: Accelerated Features for Lightweight Image Matching 著者 Guilherme Potje1, Felipe Cadar1,2, Andre Araujo3, Renato Martins2,4, Erickson R. Nascimento1,5 1Universidade Federal de Minas Gerais, 2Universite de Bourgogne, ICB UMR 6303 CNRS, 3Google Research, 4Universite de Lorraine, LORIA, Inria, 5Microsoft 掲載 CVPR2024 URL GitHub https://github.com/verlab/accelerated_features プロジェクトページ https://www.verlab.dcc.ufmg.br/descriptors/xfeat_cvpr24/ 論文本体 https://arxiv.org/pdf/2404.19174
  • 3.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 概要 (XFeat) 3 局所的特徴量の抽出と画像マッチングのための 高効率なアーキテクチャの提案 sparseとsemi-denseの2種類のモデル 汎用性が高くハードウェアに依存しない 既存手法を上回る速度(最大5倍)で同等以上の精度 Xfeat on CPU 従来手法 (SIFT) on CPU
  • 4.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 概要 (XFeat) 4 Megadepth-1500の実験結果
  • 5.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 背景 5 ローカルな画像特徴抽出とマッチング Local Feature Matching (LFM) ハイレベルなvision taskの一種 画像特徴量抽出は多くのタスクで重要 SLAM[1], 3Dモデルの自動生成[2], 画像のマッチング 最近の進歩にも関わらず、 改善のほとんどが高い計算量と複雑な実装 [1]の地図生成結果 [2]の3Dモデルの生成結果
  • 6.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 関連研究 6 画像のマッチング キーポイント検出, CNNまで多岐にわたる 最先端手法はtransformerを使用したモデル ロバスト性と正確性の改善がメイン 特徴記述子 (feature descriptors)と画像のマッ チング SuperPoint[3] 自己教師ありCNN ZippyPoint[4] 量子化と二値化を組み込んだCNN ※ 特徴量記述子 = どのように特徴を表現するか(=特徴抽出)
  • 7.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Xfeatの概要 7 軽量なネットワークバックボーン ローカルの特徴量抽出 Descriptor Head (特徴量抽出) Keypoint Head (キーポイント) Dense Matching (密なマッチング) ネットワークアーキテクチャ
  • 8.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. バックボーンの軽量化の歴史 8 処理コスト削減する方法: VGG16 概要 空間次元(𝐻𝑖,𝑗, 𝑊𝑖,𝑗)を徐々に半分にしながら、 畳み込み層のチャネル数(𝐶𝑖)を2倍にする 計算量 𝐹𝑜𝑝𝑠 = 𝐻𝑖 ∙ 𝑊𝑖 ∙ 𝐶𝑖 ∙ 𝐶𝑖+1 ∙ 𝑘2 最大で1/9まで計算量を削減 高解像度を扱う場合は効果が少ない 𝐻𝑖 ∙ 𝑊𝑖 がボトルネック Super-Point[3]とALIKE[5]の登場
  • 9.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 提案する軽量なバックボーン 9 初期の畳み込み層の空間分解能を可能な限り減らす 精度低下は、チャネル配分の再構成で改善 十分なチャネル数 (128)に達するま で、空間分解能を半分にするごとに チャネル数を3倍にする
  • 10.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Local feature extraction 10 Multi scaleな特徴量をマージすることで 特徴マップ𝐹 ∈ ℝ 𝐻 8 × 𝑊 8 ×64 を抽出 Feature Pyramid Networks[6]により、ネットワーク受容野が 増加 𝐹𝑖,𝑗が確信を持ってマッチングできる確率のマップ 𝑅 ∈ ℝ 𝐻 8× 𝑊 8 ×64
  • 11.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. keypoint head 11 処理方法はSuperPoint[3]と同様 1/8になった最終エンコーダの特徴量を使用 平坦化した8x8グリッド内のキーポイントを分類 SuperPointと異なる点 Keypointの検出専用に並列ブランチを使用
  • 12.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. dense matching: ピクセル対応のマッチング 12 信頼性マップ𝑅𝑖,𝑗 を用いて画像領域を選択 元の空間分解能の1/8を使うことで、メモリと計算量を大幅に節約 その後、Descriptors 𝐹を使用したピクセルレベルでの マッチングを行う 𝑜 = 𝑀𝐿𝑃(𝑐𝑜𝑛𝑐𝑎𝑡 𝑓𝑎, 𝑓𝑏 ) subset 𝐹𝑠 ∈ 𝐹 𝑓𝑎 ∈ 𝐹1 𝑥, 𝑦 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝒐 𝑖, 𝑗 , 𝑖 ∈ 1, … , 8 𝑖 ∈ 1, … , 8 一致した offsetの座標
  • 13.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験設定 13 2つのモデル sparse (Xfeat) keypoint heatmap 𝐾 から最大4096個を抽出 𝑠𝑐𝑜𝑟𝑒 = 𝐾𝑖,𝑗 ∙ 𝑅𝑖,𝑗 semi-dense (XFeat*) 入力画像サイズを0.65と1.3のスケールで画像処理 上位10,000個の特徴量を抽出 実験タスク Relative pose estimation (相対的ポーズ推定) Homography estimation(ホモグラフィ推定) Visual localization(自己位置+姿勢の推定)
  • 14.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Relative pose estimation 14 データセットの特徴 視点と照明が同時に大きく変化 定性評価の結果 既存手法よりも検出とマッチング精度に優れている 汎用性も高い Megadepth-1500[7]の定性評価
  • 15.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Relative pose estimation 15 ベースの手法であるALIKEより5倍高速 semi-denseの結果の場合、Fastの中では最高スコアを獲得 Megadepth-1500[7]の定量評価 @5° =最大角度誤差が5°以下 平均インライア率 = 正しい対応関係 全マッチングの対応関係 記述子の次元数 f: 浮動小数点 b: バイナリベース
  • 16.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Relative pose estimation 16 ベースの手法であるALIKEより5倍高速 semi-denseの結果の場合、Fastの中では最高スコアを獲得
  • 17.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Homography estimation 17 中程度から強い視点移動と照明変化がある 2つの平面画像 評価にはHPaches[8]を使用 HPatches[8]のデータセット
  • 18.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Homography estimation 18 他の手法と同等な精度を達成 照明変化と視点変化のどちらも対応可能 HPatchesによる定量評価 MHA = 変換行列(ホモグラ フィ行列)で変換後と 元画像の誤差平均 ホモグラフィ行列の例[9]
  • 19.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Visual localization 19 画像を使用した現在位置特定 Aachen: 昼と夜のシーンの画像とカメラの場所 昼夜画像のマッチングは難易度が高い Aachen[10]のデータセットと結果
  • 20.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Visual localization 20 最先端のSuperPointやDISKの精度と同程度 少なくとも9倍高速 リソースに制約のあるシステムで効率的に動作 Aachenのカメラポーズ精度の定量評価
  • 21.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Ablation (アブレーションスタディ) 21 導入した戦略は効果あり 1. 追加の合成画像の精度向上 2. ネットワークのチャネル数の削減 3. keypoint headを並列ブランチにしない場合 4. マッチ精密化モジュール
  • 22.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. まとめ 22 局所的特徴量の抽出と画像マッチングのための 高効率なアーキテクチャの提案 sparseとsemi-denseの2種類のモデル 汎用性が高くハードウェアに依存しない 既存手法を上回る速度(最大5倍)で同等以上の精度 Xfeat on CPU 従来手法 (SIFT) on CPU
  • 23.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 参考文献 23 [1] Raul Mur-Artal and Juan D Tardos. Orb-slam2: An open-source slam system for monocular, stereo, and rgb-d cameras. IEEE Trans. on Robotics., 33(5):1255–1262, 2017. [2] Guilherme Potje, Gabriel Resende, Mario Campos, and Erickson R Nascimento. Towards an efficient 3d model estimation methodology for aerial and ground images. Mach. Vis. and Applications., 28:937–952, 2017. [3] Daniel DeTone, Tomasz Malisiewicz, and Andrew Rabinovich. Superpoint: Self-supervised interest point detection and description. In CVPRW, pages 224–236, 2018. [4] Menelaos Kanakis, Simon Maurer, Matteo Spallanzani, Ajad Chhatkuli, and Luc Van Gool. Zippypoint: Fast interest point detection, description, and matching through mixed precision discretization. In CVPRW, pages 6113–6122, 2023. [5] Xiaoming Zhao, Xingming Wu, Jinyu Miao, Weihai Chen, Peter CY Chen, and Zhengguo Li. Alike: Accurate and lightweight keypoint detection and descriptor extraction. IEEE TMM, 2022. [6] Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. In CVPR, pages 2117–2125, 2017. [7] Zhengqi Li and Noah Snavely. Megadepth: Learning singleview depth prediction from internet photos. In CVPR, pages 2041– 2050, 2018. [8] Vassileios Balntas, Karel Lenc, Andrea Vedaldi, and Krystian Mikolajczyk. Hpatches: A benchmark and evaluation of handcrafted and learned local descriptors. In CVPR, pages 5173–5182, 2017. [9] Deepでポン!Deep Learningによるホモグラフィ推定技術の調査(コード有り), ABEJA Tech Blog, https://tech- blog.abeja.asia/entry/awesome-deep-homography-202004, 2024年5月30日参照 [10] Torsten Sattler, Will Maddern, Carl Toft, Akihiko Torii, Lars Hammarstrand, Erik Stenborg, Daniel Safari, Masatoshi Okutomi, Marc Pollefeys, Josef Sivic, et al. Benchmarking 6dof outdoor visual localization in changing conditions. In CVPR, pages 8601– 8610, 2018.