You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話Yusuke Uchida
第7回全日本コンピュータビジョン勉強会「CVPR2021読み会」(前編)の発表資料です
https://kantocv.connpass.com/event/216701/
You Only Look One-level Featureの解説と、YOLO系の雑談や、物体検出における関連する手法等を広く説明しています
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話Yusuke Uchida
第7回全日本コンピュータビジョン勉強会「CVPR2021読み会」(前編)の発表資料です
https://kantocv.connpass.com/event/216701/
You Only Look One-level Featureの解説と、YOLO系の雑談や、物体検出における関連する手法等を広く説明しています
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
セル生産方式におけるロボットの活用には様々な問題があるが,その一つとして 3 体以上の物体の組み立てが挙げられる.一般に,複数物体を同時に組み立てる際は,対象の部品をそれぞれロボットアームまたは治具でそれぞれ独立に保持することで組み立てを遂行すると考えられる.ただし,この方法ではロボットアームや治具を部品数と同じ数だけ必要とし,部品数が多いほどコスト面や設置スペースの関係で無駄が多くなる.この課題に対して音𣷓らは組み立て対象物に働く接触力等の解析により,治具等で固定されていない対象物が組み立て作業中に運動しにくい状態となる条件を求めた.すなわち,環境中の非把持対象物のロバスト性を考慮して,組み立て作業条件を検討している.本研究ではこの方策に基づいて,複数物体の組み立て作業を単腕マニピュレータで実行することを目的とする.このとき,対象物のロバスト性を考慮することで,仮組状態の複数物体を同時に扱う手法を提案する.作業対象としてパイプジョイントの組み立てを挙げ,簡易な道具を用いることで単腕マニピュレータで複数物体を同時に把持できることを示す.さらに,作業成功率の向上のために RGB-D カメラを用いた物体の位置検出に基づくロボット制御及び動作計画を実装する.
This paper discusses assembly operations using a single manipulator and a parallel gripper to simultaneously
grasp multiple objects and hold the group of temporarily assembled objects. Multiple robots and jigs generally operate
assembly tasks by constraining the target objects mechanically or geometrically to prevent them from moving. It is
necessary to analyze the physical interaction between the objects for such constraints to achieve the tasks with a single
gripper. In this paper, we focus on assembling pipe joints as an example and discuss constraining the motion of the
objects. Our demonstration shows that a simple tool can facilitate holding multiple objects with a single gripper.
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matchingharmonylab
公開URL:https://arxiv.org/pdf/2404.19174
出典:Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. ascimento: XFeat: Accelerated Features for Lightweight Image Matching, Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023)
概要:リソース効率に優れた特徴点マッチングのための軽量なアーキテクチャ「XFeat(Accelerated Features)」を提案します。手法は、局所的な特徴点の検出、抽出、マッチングのための畳み込みニューラルネットワークの基本的な設計を再検討します。特に、リソースが限られたデバイス向けに迅速かつ堅牢なアルゴリズムが必要とされるため、解像度を可能な限り高く保ちながら、ネットワークのチャネル数を制限します。さらに、スパース下でのマッチングを選択できる設計となっており、ナビゲーションやARなどのアプリケーションに適しています。XFeatは、高速かつ同等以上の精度を実現し、一般的なラップトップのCPU上でリアルタイムで動作します。
19. 勾配に基づく特徴抽出
EOH(Edge of Orientation Histograms) Edgelet
局所的な勾配方向の比を捉える 局所領域に含まれる特定形状を捉える
−少ない枚数で検出器を実現 −Boostingとの組み合せて高い識別率を実現
K. Levi, CVPR 2004. B. Wu, CVPR 2005.
LBP(Local Binary Pattern) HOG(Histograms of Oriented Gradients)
局所領域に含まれる勾配分布を捉える
局所的な輝度の分布をバイナリコードとして捉える
−高い識別率を実現し、よく利用されている
−顔認識等でも幅広く利用
−派生した特徴量が多数:EHOG, C-HOGなど
Y. D. Mu, CVPR 2008. N. Dalal, CVPR 2005. 19
20. 勾配に基づく特徴抽出 1
• EOH(Edge of Orientation Histograms)
‒ 局所領域から得られる勾配ヒストグラムの比率を特徴量とする
少ない学習サンプルで高精度な識別器を学習可能
K. Levi et al. , "Learning Object Detection from a Small Number of Examples: the Importance of Good Features",
CVPR, 2004. 20
21. 勾配に基づく特徴抽出 2
• Edgelet
‒ 局所領域に含まれる特定形状を捉える
• 直線性,円弧,対称性
Boostingと組み合せて高い識別率を実現
B. Wu et al. , "Detection of Multiple, Partially Occluded Humans in a Single Image by Bayesian Combination
of Edgelet Part Detectors", CVPR, 2005. 21
22. 勾配に基づく特徴抽出 3
• LBP(Local Binary Pattern)
‒ 注目画素と近傍画素の輝度の大小関係を表現
‒ 局所領域におけるバイナリパターンをヒストグラム化
100 220 80 0 1 0
100 110 150 0 1
80 90 100 0 0 0
00000000
11111111
50 75 105 0 0 1
255 95 200 1 1
220 180 80 1 1 0
入力画像 3x3 画素 LBP ヒストグラム
局所的な輝度の分布をバイナリコードとして捉える
Y. D. Mu et al. , "Discriminative Local Binary Patterns for Human Detection in Personal Album", CVPR, 2008. 22
23. 勾配に基づく特徴抽出 4
• HOG(Histograms of Oriented Gradients)
‒ 局所領域に含まれる勾配分布を捉える
人検出の分野ではデファクトスタンダードな特徴量
派生した特徴量が多数提案 : EHOG,C-HOG,P-HOG
N. Dalal et al. , "Histograms of Oriented Gradients for Human Detection", CVPR, 2005. 23
24. 色情報に基づく特徴抽出 1
• Integral Channel Features (ICF)
‒ 輝度,色,勾配などの特徴量を併用
• 特徴量 : 局所領域の画素値の和
‒ 積分画像,積分ヒストグラムで高速に計算できる特徴量を利用
色は人の衣服に左右されるため悪影響の可能性がある
P. Dollár et al. , "Integral Channel Features", BMVC, 2009. 24
25. 色情報に基づく特徴抽出 1
• Integral Channel Features (ICF)
Uチャンネルの
‒ 輝度,色,勾配などの特徴量を併用
顔が一番強い
• 特徴量 : 局所領域の画素値の和
‒ 積分画像,積分ヒストグラムで高速に計算できる特徴量を利用
全弱識別器の可視化
P. Dollár et al. , "Integral Channel Features", BMVC, 2009. 25
26. 色情報に基づく特徴抽出 2
• Color Self-Similarity (CSS)
‒ 2つの局所領域から得られる色ヒストグラムの類似度を
特徴量として利用
‒ 2つの局所領域が同一部位かどうかを暗に表現
頻度
}
}
}
H S V
類似度 S
頻度
}
}
}
H S V
入力画像 セルC (8 8ピクセル) 色ヒストグラム p
色情報に対する依存がないため,人検出に色情報を有効活用できる
S. Walk et al. , "New Features and Insights for Pedestrian Detection", CVPR, 2010. 26
28. 空間的変化を捉える特徴量
• 背景差分により得られる前景領域を捉える
‒ 背景差分をベースとした手法により前景領域の確率を算出
固定カメラに限定
J. Yao et al. , "Fast Human Detection from Videos Using Covariance Features", Visual Surveillance, 2008. 28
29. 時間的変化を捉える特徴量 1
• モーションフィルタ(Haar-like)
‒ 2フレーム間の動きを3つのモーションフィルタで捉える
• 時間的な移動 : フレーム間差分
• 擬似的な移動 : 1フレーム目を擬似的に上下左右に1ピクセル移動
• 擬似的な移動の差 : フレーム間差分 - 擬似的な移動
低解像度画像 (20 x 15画素)に適応可能
P. Viola et al. , "Detecting Pedestrians Using Patterns of Motion and Appearance", ICCV, 2003. 29
30. 時間的変化を捉える特徴量 2
• Histograms of Flow (HOF)
‒ 2つの特徴表現
• オプティカルフローをHOG特徴量(HOF)のように表現
• 近傍のオプティカルフローヒストグラムとの差を特徴量として表現
t, t+1フレームの画像 フローとその境界 フローから得られる勾配 平均勾配画像
相対的な動きを観測 → 移動カメラへ適応可能
N. Dalal et al. , "Human Detection Using Oriented Histograms of Flow and Appearance", ECCV, 2006. 30
35. 統計的学習手法を用いない特徴量間の共起
• CoHOG(Co-occurrence HOG)
‒ 局所領域内の勾配のペアを累積した同時生起行列
‒ 2カ所の局所領域の勾配と勾配の関係性を表現することで
人の形状の構造を捉えられる
T. Watanabe et al. , "Co-occurrence Histograms of Oriented Gradients for Human Detection", IPSJ Trans. on
CVA, 2010. 35
69. 視点の変化に対応した手法 1
• 人検出器とジオメトリ,視点の関係をモデル化
sky
Vertical
Ground
入力画像 P(surfaces) P(viewpoint)
P(object) P(object | surfaces) P(object | viewpoint)
D. Hoiem et al. , "Putting Objects in Perspective", IJCV, Vol. 80, No. 1, pp. 3-15, 2008. 69
70. 視点の変化に対応した手法 1
• 人検出器とジオメトリ,視点の関係をモデル化
sky
Vertical
Ground
入力画像 P(surfaces) P(viewpoint)
ベイジアンネットにより
人検出器とジオメトリ,視点の
因果関係をモデル化
P(object) P(object | surfaces, viewpoint)
D. Hoiem et al. , "Putting Objects in Perspective", IJCV, Vol. 80, No. 1, pp. 3-15, 2008. 70
71. 検出結果の例
Human detector Full model
3 正検出 / 2 誤検出 4 正検出 / 0 誤検出
D. Hoiem et al. , "Putting Objects in Perspective", IJCV, Vol. 80, No. 1, pp. 3-15, 2008. 71
72. 視点の変化に対応した手法 2
• 転移学習によるドメイン適応
‒ 事前に学習した汎用的な識別器を転移学習により最適化
元ドメイン 目標ドメイン
J. Pang et al. , "Transferring Boosted Detectors Towards Viewpoint and Scene Adaptiveness", IP, 2011. 72
73. 視点の変化に対応した手法 2
• 転移学習によるドメイン適応
‒ 事前に学習した汎用的な識別器を転移学習により最適化
元ドメインで選択した特徴量
h1 h2 hm
Hs
元ドメイン 元ドメインの強識別器 目標ドメイン
J. Pang et al. , "Transferring Boosted Detectors Towards Viewpoint and Scene Adaptiveness", IP, 2011. 73
74. 視点の変化に対応した手法 2
• 転移学習によるドメイン適応
‒ 事前に学習した汎用的な識別器を転移学習により最適化
• 特徴量の転移 : 選択された特徴量の位置を最適化
元ドメインで選択した特徴量
h1 h2 hm
Hs
元ドメイン 元ドメインの強識別器 目標ドメイン
J. Pang et al. , "Transferring Boosted Detectors Towards Viewpoint and Scene Adaptiveness", IP, 2011. 74
75. 視点の変化に対応した手法 2
• 転移学習によるドメイン適応
‒ 事前に学習した汎用的な識別器を転移学習により最適化
• 特徴量の転移 : 選択された特徴量の位置を最適化
• 識別器の転移 : 選択された識別器の重みを最適化
元ドメインで選択した特徴量 転移された特徴量
h1 h2 hm
Hs Ht
元ドメイン 元ドメインの強識別器 目標ドメインの強識別器 目標ドメイン
大きな視点の変化による見えの変動を吸収することができる
J. Pang et al. , "Transferring Boosted Detectors Towards Viewpoint and Scene Adaptiveness", IP, 2011. 75
78. 特徴抽出の高速化
• 積分ヒストグラムによる勾配特徴量の高速演算
‒ 事前に積分ヒストグラムを作成
‒ 3回の加減算のみで局所領域の勾配和を演算可能
強度
1 2 3 4 5 6
P P
勾配方向
領域 P の勾配和
A+D-B-C 勾配方向 1 に対応する積分画像 勾配方向 6 に対応する積分画像
F. Porikli et al. , "Integral Histogram: a Fast Way to Extract Histograms in Cartesian Spaces", CVPR, 2005. 78
82. 学習サンプルの収集
• CGから人画像を自動的に生成
J. Marín et al. , "Learning Appearance in Virtual Scenarios for Pedestrian Detection", CVPR, 2010. 82
83. 歪みの除去
• 擬似的に平行投影した画像
から人を検出
‒ カメラパラメータ既知
‒ 人物は地面に直立している こ
とを仮定
Y. Li et al. , "Human Detection by Searching in 3D Space Using Camera and Scene Knowledge", ICPR, 2008. 83
87. INRIA Person Dataset (2006年)
• 人検出の分野で最も使用されているデータベース
URL : http://pascal.inrialpes.fr/data/human/
N. Dalal et al. , "Histograms of Oriented Gradients for Human Detection", CVPR, 2005. 87
88. Caltech Pedestrian Database (2009年)
• 2009年以降は本データベースにて評価する論文が急増
• 様々な情報が付与
‒ 人領域の隠れ,時系列の映像が使用可
URL : http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/index.html
P. Dollár et al. , "Pedestrian Detection: A Benchmark", CVPR, 2009. 88
89. 評価指標
• 手法の性能を測るために未検出率と誤検出率を比較
1. Miss Rate VS False Positive Per Window (FPPW)
• 1検出ウィンドウあたりの誤検出した率
• 検出ウィンドウの統合処理を含まない
2. Miss Rate VS False Positive Per Image (FPPI)
• 1枚の画像あたりの誤検出した数
• 検出ウィンドウの統合処理を含む
検出器の性能が直感的に把握できるため,
近年ではMiss Rate VS FPPIにより評価する論文が多い
89
90. 人検出法の比較
• DETカーブによる比較
‒ 横軸に誤検出率,縦軸に未検出率
‒ 識別器の閾値を変えた際の誤検出率と未検出率をプロット
‒ グラフの左下に位置するDETカーブほど性能が高い
多数(勾配特徴量+α)を利用している
様々な条件下で手法を評価
- 人画像のスケール
- 人領域の隠れの有無
- 処理時間
P. Dollár et al. , "Pedestrian Detection : An Evaluation of the State of the Art", PAMI, 2009. 90