【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matchingharmonylab
公開URL:https://arxiv.org/pdf/2404.19174
出典:Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. ascimento: XFeat: Accelerated Features for Lightweight Image Matching, Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023)
概要:リソース効率に優れた特徴点マッチングのための軽量なアーキテクチャ「XFeat(Accelerated Features)」を提案します。手法は、局所的な特徴点の検出、抽出、マッチングのための畳み込みニューラルネットワークの基本的な設計を再検討します。特に、リソースが限られたデバイス向けに迅速かつ堅牢なアルゴリズムが必要とされるため、解像度を可能な限り高く保ちながら、ネットワークのチャネル数を制限します。さらに、スパース下でのマッチングを選択できる設計となっており、ナビゲーションやARなどのアプリケーションに適しています。XFeatは、高速かつ同等以上の精度を実現し、一般的なラップトップのCPU上でリアルタイムで動作します。
セル生産方式におけるロボットの活用には様々な問題があるが,その一つとして 3 体以上の物体の組み立てが挙げられる.一般に,複数物体を同時に組み立てる際は,対象の部品をそれぞれロボットアームまたは治具でそれぞれ独立に保持することで組み立てを遂行すると考えられる.ただし,この方法ではロボットアームや治具を部品数と同じ数だけ必要とし,部品数が多いほどコスト面や設置スペースの関係で無駄が多くなる.この課題に対して音𣷓らは組み立て対象物に働く接触力等の解析により,治具等で固定されていない対象物が組み立て作業中に運動しにくい状態となる条件を求めた.すなわち,環境中の非把持対象物のロバスト性を考慮して,組み立て作業条件を検討している.本研究ではこの方策に基づいて,複数物体の組み立て作業を単腕マニピュレータで実行することを目的とする.このとき,対象物のロバスト性を考慮することで,仮組状態の複数物体を同時に扱う手法を提案する.作業対象としてパイプジョイントの組み立てを挙げ,簡易な道具を用いることで単腕マニピュレータで複数物体を同時に把持できることを示す.さらに,作業成功率の向上のために RGB-D カメラを用いた物体の位置検出に基づくロボット制御及び動作計画を実装する.
This paper discusses assembly operations using a single manipulator and a parallel gripper to simultaneously
grasp multiple objects and hold the group of temporarily assembled objects. Multiple robots and jigs generally operate
assembly tasks by constraining the target objects mechanically or geometrically to prevent them from moving. It is
necessary to analyze the physical interaction between the objects for such constraints to achieve the tasks with a single
gripper. In this paper, we focus on assembling pipe joints as an example and discuss constraining the motion of the
objects. Our demonstration shows that a simple tool can facilitate holding multiple objects with a single gripper.
9. 9
Audio-visual Laerning の動向1
• 既存のタスク+αが多数
– Learning to Have an Ear for Face Super-Resolution
• 顔画像の高解像度化に音声の情報を利用(音声から顔 画
像を生成するSpeech2Face系の拡張)
– Speech2Action: Cross-Modal Supervision for Action
Recognition
• 映画の台詞と行動の関係に基づいた行動認識のための 弱
教師あり学習
– Listen to Look: Action Recognition by Previewing Audio
• 行動認識において音を利用してビデオから代表点抽出
10. 10
Audio-visual Laerning の動向2
各モダリティにおける学習済みDNNの有効活用
– Visual Grounding in Video for Unsupervised Word Translation
• 画像に基づく教師なし機械翻訳の学習データを,各言語での
インストラクションビデオにASRを適用し作成
– Music Gesture for Visual Sound Separation
● OpenPoseでキーポイント 抽
出しAV音源分離に利用
● 動 画と音の時 系 列の対 応
関係を活用した身体の動きに
関連する研究が多数
[Gan+,CVPR2020,http://xpaperchallenge.org/c
v/survey/cvpr2020_summaries/214]
11. 11
Audio-visual Laerning の動向3
• 対応関係を利用した自己教師あり学習の多様化
– Telling Left from Right: Learning Spatial Correspondence of
Sight and Sound
• 従来法は音源物体の種類や動き(時系列情報)から学習
• 提案法はバイノーラル音源を利用し空間情報から学習
● 音の左右が入れ替わって
いるか判別できるように特
徴抽出DNNsを学習
[Yang+,CVPR2020,http://xpaperchallenge.org/
cv/survey/cvpr2020_summaries/159/]
12. David Harwath
12
Multi-modal SSLを先導(Speech寄り)
– Sight and Sound Workshopで講演
– MIT CSAILでPh.D,現在は同Reserach Scientist
– Spoken languageとvisualのcross-modalに早くから着手
(ASRU2015)
– 代表的な論文
• Deep Multimodal Semantic Embeddings for
Speech and Images (ASRU 2015)
• Unsupervised Learning of Spoken Language with
Visual Context (NIPS 2016)
• Jointly discovering visual objects and spoken
words from raw sensory input (ECCV 2018)
• Learning Hierarchical Discrete Linguistic Units from
Visually-Grounded Speech (ICLR 2019)
https://people.csail.mit.edu/
dharwath/
13. Andrew Owens
13
Multi-modal SSLを先導(Vision寄り)
– Sight and Sound Workshopのオーガナイザ
– MIT CSAILでPh.D,現在はミシガン大学EECS学科助教
– 博士論文は Learning Visual Models from Paired
Audio-Visual Examples
– 代表的な論文
• Visually Indicated Sounds (CVPR 2016)
• Ambient Sound Provides Supervision for Visual
Learning (ECCV 2016)
• Audio-visual scene analysis with self- supervised
multisensory features
(ECCV 2018)
• Learning individual styles of conversational gesture
(CVPR2019) http://andrewowens.com/
14. Kristen Grauman
14
Audio-Visual統合の研究を先導
– Sight and Sound Workshopのオーガナイザ
– MIT CSAILでPh.D
– 現在はテキサス大学オースティン校の教授とFAIRのResearch
Scientistを兼任
– CVPR2020共著6件(うち4件オーラル)
– 代表的な論文
• Learning to separate object sounds by
watching unlabeled video (ECCV 2018)
• 2.5D visual sound (CVPR 2019)
• Co-Separating sounds of visual objects (ICCV
2019)
• Listen to look: action recognition by
previewing audio (CVPR 2020) http://www.cs.utexas.edu/users/grauman/
15. FAIR (Facebook AI Research)
15
大規模データセットを使ったMulti-modal SSL
– Instagramの膨大なMulti-modalデータを利用
– 大学との兼任で強い研究者多数
• Kristen Grauman: UT Austinとの兼任(先述)
• Andrea Vedaldi: VGG(後述)との兼任
• Lorenzo Torresani: Dartmouth Collegeとの兼任
[Alwassel+, 2019, https://arxiv.org/abs/1911.12667]
[Patrick+, 2020,
https://arxiv.org/abs/2003.04298]
16. VGG (Visual Geometry Group)
16
Oxford大学のCVにおける一大研究室
– 主催のAndrew Zisserman氏はSight and Sound Workshop
のオーガナイザ
– VoxCeleb, VGGSoundなどAudio-visualのデータセットを多数
公開
– Audio-visualでの代表的な論文
• The Conversation: Deep Audio-Visual Speech
Enhancement (ECCV 2018)
• Learnable PINS: Cross-Modal Embeddings for
Person Identity (ECCV 2018)
• Deep audio-visual speech recognition
(TPAMI2018)
• Speech2Action: Cross-Modal Supervision
for Action Recognition (CVPR 2020) ttp://www.robots.ox.ac.uk/~az/