Human Hands as Probes for
Interactive Object Understanding
Mohit Goyal, Sahil Modi, Rishabh Goyal, Saurabh Gupta
CVPR2022
加藤樹(名工大玉木研)
2023/4/6
背景
nコンピュータビジョン(CV)における目標
• 物体に対して何がどうできるのかを解明
n課題点
• 物体を認識し,名前をつけるだけでは物体と対話不可能
n明らかにすべき事
• 何が対話の対象となり得るのか
• どのように対話すれば良いか
• 対話をすると何が起きるのか
本研究の方針
n物体に関する理解を獲得
• 一人称視点から人間の手を観察
n相互作用領域を特定
• 手の周囲の情報から推定
• どこにどんな握り方ができるのか
n状態に反応する特徴を学習
• 物体に何ができるか
• 相互作用領域から推定
(a) 入力画像 (b) 相互作用領域 (c),(d) 予測された手の把持
手段
n学習済みモデルにより検出された手の把持タイプを予測
• 分類データセット : YCB-Affordance[Corona+,CVPR2020]
n手と物体の画像を連続したフレームで繋ぎ合わせ,トラックを形成
nトラックは状態依存の特徴量の学習に利用
n手と物体の相互作用はフレームごとの予測を用いて学習
状態に反応する特徴の学習
n 対照学習で実現
• 自己教師あり学習の手法
• ラベル付けは不要
• データ同士を比較して学習
• 似たデータは近くに,異なるデータは遠くになるよう学習
n 結合損失を提案
• 𝐿!"#$%&'( : 時間的整合性を促進
• 𝐿)'*+ : 手で相互作用される物体の類似性を間接的に促進
対照学習のためのバッチ
nN個の4つ組み画像(𝑂!, 𝑂!
"
, ℎ!
#
, ℎ!
$
)を構成
• 𝑂, : 物体の切り抜き画像
• 𝑂,
-
: 𝑂, の時間的補強
• 別フレームからサンプリング
• ℎ,
#
: 手の動きを示す指標
• ℎ,
'
: 手の外見の切り抜き画像
• 図の中ではℎ,
対照学習の損失設定
nエンコーダ𝜙%, 𝜙&を用意し,画像(𝑂!, 𝑂!
"
, ℎ!
#
, ℎ!
$
)を通す
n𝐿'($)%*#+ : 投影ヘッド 𝑓%
n𝐿&#,- : 投影ヘッド 𝑓&, 𝑔& (物体用と手の画像用)
nℎ!
$
: 位置コーディングによって符号化
n定式化の出力は𝜙%であり,これが特徴に反応する表現
学習のためのデータの生成
n検出された手の周囲を 𝑠×𝑠 個の
パッチでサンプリング
n 周辺は2𝑠×2𝑠に拡張
n手はマスクアウトする
• 文脈推測課題のため
nモデルの目的
• サンプリング領域内の手のマスクセ
グメンテーション
• 手が示す把持タイプを予測
モデルの構成と学習
nマスクされた領域はエンコーダーで処理
• エンコーダー : ResNet-50 [He+, CVPR2016]
n2つのタイプを予測する別々のヘッドに送信
• マスクセグメンテーション
• 把持タイプ
n2値クロスエントロピーロスで学習
推論
n3つの異なるスケールでパッチを高密度にサンプリング
nパッチから得られた予測値を元の画像に貼り付け
n確率を生成する
• 相互作用の画素ごとの確率
• 手の把持の画素ごとの確率
実験内容
n物体の状態に反応する特徴をテスト
• 特徴表現𝜙%の精度を過去の手法と比較
n物体の相互作用領域特定をテスト
• 推論の精度を過去の手法と比較
実験設定
nビデオデータセット
• EPIC-KITCHENS
• EPIC-KITCHENS-55 [Damen+, ECCV2018][Damen+, TPAMI2021]
• EPIC-KITCHENS-100 [Damen+, IJCV2021]
nイメージデータセット
• COCO [Lin+, ECCV2014]
• ImageNet-1k [Deng+, CVPR2009]
• ImageNet-21k [Deng+, CVPR2009]
nセグメンテーション
• Mask R-CNN [He+, ICCV2017]
物体の状態に反応する特徴のテスト
n学習した特徴空間 𝜙% の物体状態の分類に対する性能をテスト
• ImageNetの事前学習より高性能
• 教師あり学習より高性能
• 他の自己教師学習より高性能
• SimCLR [Chen+, ICML2020]
• TCN [Sermanet+, ICRA2018]
• 低データ量や新規物体への汎化
においての性能向上
分類の性能を平均精度で比較
TSC:Temporal SimCLR
OHC:Object-Hand Consistency
物体の相互作用領域の特定のテスト
n ACP は学習無しで,過去の手法より良い精度
• ACP:Affordances via Context Prediction
nMask R-CNN+ACPで,最も良い精度
データセット MaskRCNN IHOTSPOT DEEPGAZE2 ACP(Ours)
MaskRCNN+
DEEPGAZE2
MaskRCNN+
ACP
教師 MSCOCO
Action and
Object Labels
Recorded Eye
Fixations
Hand-Object
detections
Adding the
predictions
Adding the
predictions
平均精度 64.0 43.8 55.7 57.4 66.6 68.7
相互作用領域を平均精度で予測
まとめ
n研究概要
• 人間の手の観察と分析により,物体との対話的理解を獲得.
• 手をより深く理解することで,物体をより深く理解可能.
n今後の課題
• EPIC-KITCHENSデータセットによるバイアス
• データセット内で出現する画像や物体の使用法のバイアス が付加
• 社会的システム実装においての倫理的配慮
以降,補助スライド
物体状態の類似性
n学習した特徴空間の最近傍点を可視化
n入力の特徴に対する出力
• 提案手法(TSC+OHC)の方が特徴をより理解
• 学習済みImageNetでは特徴の理解が不十分
低データ量や新規物体への汎用化
n最近傍探索で可視化
n入力の手と類似した特徴に関連する物体を検索
n手の情報だけで相互作用されている物体も獲得可能
文脈予測を通じた手の把持の特定
n物体と手の相互作用を推定
• 相互作用領域の推定
• 相互作用領域で適用可能な手の把持の推定
n文脈推測課題を提案
• 手の周囲の画像パッチから手の位置と把持を予測
• 物体の周囲の情報を利用して相互作用領域を予測
(a) 入力画像 (b) 相互作用領域 (c),(d) 予測された手の把持

論文紹介:Human Hands As Probes for Interactive Object Understanding