【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matchingharmonylab
公開URL:https://arxiv.org/pdf/2404.19174
出典:Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. ascimento: XFeat: Accelerated Features for Lightweight Image Matching, Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023)
概要:リソース効率に優れた特徴点マッチングのための軽量なアーキテクチャ「XFeat(Accelerated Features)」を提案します。手法は、局所的な特徴点の検出、抽出、マッチングのための畳み込みニューラルネットワークの基本的な設計を再検討します。特に、リソースが限られたデバイス向けに迅速かつ堅牢なアルゴリズムが必要とされるため、解像度を可能な限り高く保ちながら、ネットワークのチャネル数を制限します。さらに、スパース下でのマッチングを選択できる設計となっており、ナビゲーションやARなどのアプリケーションに適しています。XFeatは、高速かつ同等以上の精度を実現し、一般的なラップトップのCPU上でリアルタイムで動作します。
セル生産方式におけるロボットの活用には様々な問題があるが,その一つとして 3 体以上の物体の組み立てが挙げられる.一般に,複数物体を同時に組み立てる際は,対象の部品をそれぞれロボットアームまたは治具でそれぞれ独立に保持することで組み立てを遂行すると考えられる.ただし,この方法ではロボットアームや治具を部品数と同じ数だけ必要とし,部品数が多いほどコスト面や設置スペースの関係で無駄が多くなる.この課題に対して音𣷓らは組み立て対象物に働く接触力等の解析により,治具等で固定されていない対象物が組み立て作業中に運動しにくい状態となる条件を求めた.すなわち,環境中の非把持対象物のロバスト性を考慮して,組み立て作業条件を検討している.本研究ではこの方策に基づいて,複数物体の組み立て作業を単腕マニピュレータで実行することを目的とする.このとき,対象物のロバスト性を考慮することで,仮組状態の複数物体を同時に扱う手法を提案する.作業対象としてパイプジョイントの組み立てを挙げ,簡易な道具を用いることで単腕マニピュレータで複数物体を同時に把持できることを示す.さらに,作業成功率の向上のために RGB-D カメラを用いた物体の位置検出に基づくロボット制御及び動作計画を実装する.
This paper discusses assembly operations using a single manipulator and a parallel gripper to simultaneously
grasp multiple objects and hold the group of temporarily assembled objects. Multiple robots and jigs generally operate
assembly tasks by constraining the target objects mechanically or geometrically to prevent them from moving. It is
necessary to analyze the physical interaction between the objects for such constraints to achieve the tasks with a single
gripper. In this paper, we focus on assembling pipe joints as an example and discuss constraining the motion of the
objects. Our demonstration shows that a simple tool can facilitate holding multiple objects with a single gripper.
2. Computer Vision and Image Media 5 – Section 2Computer Vision and Image Media 4 – Section 2
自己紹介
Page 1
これ↓を作った人です(ニコニコ技術部で、最高3位)
動画リンク:http://www.nicovideo.jp/watch/sm23048131
3. Computer Vision and Image Media 5 – Section 2Computer Vision and Image Media 4 – Section 2
目次
出落ちの自己紹介
導入
5. ライトフィールドの特性と解析
5.1 エピポーラ画像(EPI)
5.2 ライトフィールドのフーリエ変換
5.3 空間周波数領域におけるレンズのぼけ
Page 2
4. Computer Vision and Image Media 5 – Section 2Computer Vision and Image Media 4 – Section 2
Computational Photograpy
“Computational photography extends digital photography by providing
the capability to record much more information and by offering the
possibility of processing this information afterward.”
--Oliver Bimber--
- 従来のデジタル写真技術の限界をコンピュータ処理により
補間・拡張する技術分野
- 出力結果は通常の写真、但し従来技術では得られなかったもの
- CG, CV, 応用光学など様々な分野と関連
- 新しい研究分野のため、正確で完全な定義や分類はない
Page 3
参照:IEEE Computer, Vol.39, Issue 8 (2006)
5. Computer Vision and Image Media 5 – Section 2Computer Vision and Image Media 4 – Section 2
Computational Photography とは?
Page 4
Sheer K. Nayar (Columbia Univ.)による定義
参照:http://www1.cs.columbia.edu/CAVE/projects/what_is/
6. Computer Vision and Image Media 5 – Section 2Computer Vision and Image Media 4 – Section 2
Computational Camera とは?
Page 5
Sheer K. Nayar (Columbia Univ.)による定義
参照:http://www1.cs.columbia.edu/CAVE/projects/what_is/
CV4本の2章で
語られているのは
ここ
7. Computer Vision and Image Media 5 – Section 2Computer Vision and Image Media 4 – Section 2
目次
出落ちの自己紹介
導入
5. ライトフィールドの特性と解析
5.1 エピポーラ画像(EPI)
5.2 ライトフィールドのフーリエ変換
5.3 空間周波数領域におけるレンズのぼけ
Page 6
ひと言でいうと、、、
エピポーラ情報はやっぱり使える
フーリエ変換はやっぱり使える
8. Computer Vision and Image Media 5 – Section 2Computer Vision and Image Media 4 – Section 2
ライトフィールドの特性と解析
4節まで、で、ライトフィールドの取り込み方と、
その表現法について紹介
→4D の表現を変えて、
2D として、ライトフィールドを表現できる
Page 7
4D的な表現 2D的表現
u
x
1
2
3
4
5
),,,( yx
),( ux
9. Computer Vision and Image Media 5 – Section 2Computer Vision and Image Media 4 – Section 2
ライトフィールドの特性と解析
5節では、ライトフィールドの特性と解析を紹介
全てのライトフィールド情報が必要か?
→否、冗長
ライトフィールドカメラの幾何特徴を良く内包している
エピポーラ画像(EPI)
を用いることで、冗長性を減らせる
Page 8
EPIのイメージ
平行
移動
参照論文:Efficient Fourier-Based Approach for Detecting Orientations and Occlusions
in Epipolar Plane Images for 3D Scene Modeling, Z. Zhu, 2005
10. Computer Vision and Image Media 5 – Section 2Computer Vision and Image Media 4 – Section 2
エピポーラ画像(EPI)のイメージ
Page 9
参照論文:Epipolar-Plane Image Analysis An Approach to Determining Structure from Motion, R.C.Bollesら,1987
写真を用いた
分かりやすい
イメージ図
ちょっとずつ
ずれている→
11. Computer Vision and Image Media 5 – Section 2Computer Vision and Image Media 4 – Section 2
エピポーラ画像(EPI) [っぽいLumigraph] のイメージ
Page 10
参照論文:The Lumigraph, S. J. Gortlerら, 1996
写真を用いた
分かりやすい
イメージ図
ちょっと
ずれている→
12. Computer Vision and Image Media 5 – Section 2Computer Vision and Image Media 4 – Section 2
エピポーラ幾何のおさらい
2つのカメラで同一の物体を撮像したとき、
カメラAの投影中心から物体のある特徴点への光線は、
カメラBでは、直線=エピポーラ線として得られる
Page 11
Camera BCamera A
OA
エピポーラ線
参照:http://www.slideshare.net/sumisumith/20150328-cv-sumisumithv13-46524314
13. Computer Vision and Image Media 5 – Section 2Computer Vision and Image Media 4 – Section 2
エピポーラ画像(EPI)
サイコロの「1の目」を特徴点として、
エピポーラ線が、水平に全視点でつながっているとする
ステレオカメラのイメージに近い(平行等位)
Page 12
水平移動する場合のステレオ
ライトフィールドカメラのうち、
一組のステレオカメラセットの
模式図のイメージ
14. Computer Vision and Image Media 5 – Section 2Computer Vision and Image Media 4 – Section 2
エピポーラ画像は、画像間の対応点を、引き伸ばしたよう
な画像になる
エピポーラ画像(EPI)
Page 13
ステレオ配置の場合の、EPIの考え方
角度変化
位置変化
ステレオカメラが
大量に並んでいると
思えば、理解しやすいかも
※ y は変わらない状況
15. Computer Vision and Image Media 5 – Section 2Computer Vision and Image Media 4 – Section 2
座標系で表現すると、エピポーラ線が乗った
2次元平面上で直線として表現できる
エピポーラ画像(EPI)
Page 14
ライトフィールドカメラから作られるEPI
ステレオカメラのように、
エピポーラ線がすべて平行であれば
平行線の縞模様状になる
ステレオカメラが
大量に並んでいると
思えば、理解しやすいかも
u
x
ux
16. Computer Vision and Image Media 5 – Section 2Computer Vision and Image Media 4 – Section 2
エピポーラ画像(EPI)
平面全体に(エピポーラ)直線の束があるだけ
→周波数成分に変換すれば、表現の簡単化(圧縮)が可能
Page 15
17. Computer Vision and Image Media 5 – Section 2Computer Vision and Image Media 4 – Section 2
ライトフィールドのフーリエ変換
エピポーラ線の集合として、EPI画像は得られるので、
2次元FFTをかけると、直交方向にスペクトルとして得られる
Page 16
18. Computer Vision and Image Media 5 – Section 2Computer Vision and Image Media 4 – Section 2
ライトフィールドのフーリエ変換
EPIに、ぼけフィルタをかけて、FFTすると、高周波成分が消される
→ノイズ成分が減る
Page 17
ぼけフィルタ
19. Computer Vision and Image Media 5 – Section 2Computer Vision and Image Media 4 – Section 2
空間周波数領域におけるレンズのぼけ
EPIにぼけフィルタをかけることは、
フーリエ変換された画像に対しての、ローパスフィルタ効果がある
窓的にフィルタをかけることで、ノイズ状の高周波成分が消えて、
主要なエピポーラ方向の推定ができる
- 主なエピポーラ方向が決定され、第2位のエピポーラ方向検出もすることで、
オクルージョン部
側面部
などを発見できる
Page 18
② Efficient Fourier-Based Approach for Detecting Orientations and
Occlusions in Epipolar Plane Images for 3D Scene Modeling
① CV4本で紹介されている話
参照論文:Efficient Fourier-Based Approach for Detecting Orientations and Occlusions
in Epipolar Plane Images for 3D Scene Modeling, Z. Zhu, 2005
20. Computer Vision and Image Media 5 – Section 2Computer Vision and Image Media 4 – Section 2
空間周波数領域におけるレンズのぼけ①
空間周波数領域では、どのように「ぼけ」が観察されるか?
Page 19
• ピントが合っている場合
• ライトフィールドの空間周波数のうち、 上のみを取り込み
• ピントが合っているので、高周波成分(細かい模様)まで取り込める
x~
注目プレーン
21. Computer Vision and Image Media 5 – Section 2Computer Vision and Image Media 4 – Section 2
空間周波数領域では、どのように「ぼけ」が観察されるか?
空間周波数領域におけるレンズのぼけ①
Page 20
• ピントがはずれている場合
• 空間周波数成分は、斜め線方向に伸びた分布となる
• 低周波は取れるが、高周波成分が取り込めない
→ローパスフィルタ
注目プレーン
22. Computer Vision and Image Media 5 – Section 2Computer Vision and Image Media 4 – Section 2
空間周波数領域におけるレンズのぼけ②
車にカメラを付けて移動(たくさんカメラを並べるのと、ほぼ等価)の
状況で撮影されたライトフィールド画像を想定
Page 21
参照論文:Efficient Fourier-Based Approach for Detecting Orientations and Occlusions
in Epipolar Plane Images for 3D Scene Modeling, Z. Zhu, 2005
23. Computer Vision and Image Media 5 – Section 2Computer Vision and Image Media 4 – Section 2
空間周波数領域におけるレンズのぼけ②
Page 22
EPIが生成される様子
オクルージョン部や側面部で、EPI上で変化が起きる
参照論文:Efficient Fourier-Based Approach for Detecting Orientations and Occlusions
in Epipolar Plane Images for 3D Scene Modeling, Z. Zhu, 2005
24. Computer Vision and Image Media 5 – Section 2Computer Vision and Image Media 4 – Section 2
空間周波数領域におけるレンズのぼけ②
Page 23
ベタが1番、
破線が2番、
に強い方向成分
参照論文:Efficient Fourier-Based Approach for Detecting Orientations and Occlusions
in Epipolar Plane Images for 3D Scene Modeling, Z. Zhu, 2005
結果が異なるポイント
ガウシアン(ぼけ)フィルタ後のEPIを、フーリエ変換すると、主方向が取れる例
時間
25. Computer Vision and Image Media 5 – Section 2Computer Vision and Image Media 4 – Section 2
あとは
Page 24
残りの重要な部分は、綺麗に、
@tomoaki_teshima さん
が、まとめてくれます (^ω^)
おまけ
26. Computer Vision and Image Media 5 – Section 2Computer Vision and Image Media 4 – Section 2
(おまけ)商業利用:最近のLytro
Lytro Cinemaを用いた、映画 Life 2016/04 公開!
(米のみと思われる)
Page 25
参照:http://japanese.engadget.com/2016/04/12/7-40k-lytro-cinema-3d/
27. Computer Vision and Image Media 5 – Section 2Computer Vision and Image Media 4 – Section 2
(おまけ)商業利用?:Raskerらの研究開発
ハンディに簡単に扱える医療用3Dデバイスの応用
Page 26
参照:http://cameraculture.media.mit.edu/handheld-3d-imager-to-visualize-features-in-the-throat-like-tonsils/
28. Computer Vision and Image Media 5 – Section 2Computer Vision and Image Media 4 – Section 2
(おまけ)今の先端研究:有名な方々
Sheer K. Nayar
- Columbia Univ., Computer Science Dept.
- Computer Vision Laboratory (CAVE) の偉い人
- Research Interests
- 賢いビジョンセンサ
- 物理ベースのモデルデザイン
- シーン補間アルゴリズム開発
Ramesh Raskar
- MIT, Media Lab
- 元MERL (Mitsubishi Electric Research Laboratories)
- Research Interests
- Computational Light Transport
- コンピューテショナルフォトグラフィ
- HCIにおける逆問題
Page 27
参照:http://www.cs.columbia.edu/~nayar/
参照: http://web.media.mit.edu/~raskar/
http://cameraculture.media.mit.edu/
29. Computer Vision and Image Media 5 – Section 2Computer Vision and Image Media 4 – Section 2
(おまけ)最新の動向(Nayer)
Nayerさんの論文
Towards Flexible Sheet Cameras : Deformable Lens Arrays with
Intrinsic Optical Adaptation
Page 28
30. Computer Vision and Image Media 5 – Section 2Computer Vision and Image Media 4 – Section 2
(おまけ)最新の動向(Nayer)
フレキシブルなマイクロレンズアレイシートを開発
回折限界を超えた画像撮影が可能に
Page 29
31. Computer Vision and Image Media 5 – Section 2Computer Vision and Image Media 4 – Section 2
(おまけ)最新の動向(Rasker)
検眼、個人の目の特性にあわせたディスプレイのフォーカス位置調整
Page 30
参照:https://www.cgarts.or.jp/report/rep_kr/rep0413-3.html
32. Computer Vision and Image Media 5 – Section 2Computer Vision and Image Media 4 – Section 2
(おまけ)最新の動向(日浦ら)
Active oneshot scan for wide depth range
using a light-field projector
based on coded aperture, ICCV2015
川崎、日浦ら
ライトフィールド技術をプロジェクタに応用
アパーチャコードの考えで被写界深度の限界を超えて、パターン符号化を行う
符号化情報をベースに3D計測を試みている
Page 31
33. Computer Vision and Image Media 5 – Section 2Computer Vision and Image Media 4 – Section 2
(おまけ)最新の動向(日浦ら)
Active oneshot scan for wide depth range
using a light-field projector
based on coded aperture, ICCV2015
川崎、日浦ら
ライトフィールド技術をプロジェクタに応用
アパーチャコードの考えで被写界深度の限界を超えて、パターン符号化を行う
符号化情報をベースに3D計測を試みている
Page 32