TransPose: Towards Explainable Human Pose Estimation by Transformer

TransPose: Towards Explainable
Human Pose Estimation by
Transformer
第6回全日本コンピュータビジョン勉強会
Transformer 読み会
2021/04/18
@yasutomo57jp
https://yasutomo57jp.github.io

自己紹介
• 名前：川西康友
• 所属：理化学研究所
ガーディアンロボットプロジェクト
感覚データ認識研究チーム
• 職場：ATR（けいはんな学研都市）
心を感じられるロボット実現のため，
ロボットによる周囲環境の認識
人の意図や行動の認識
に関する研究を行っています
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
2
ここ
研究員や博士課程の学生など
一緒に研究してくれる人を
絶賛募集しています！

概要
• Transformerを使った姿勢推定器の提案
• 人体構造の推定問題へのTransformerの初応用
• ヒートマップの可視化による説明性
• 73%少ないパラメータで1.4倍高速
• 書誌情報
• 著者：Sen Yang et al. （東南大学）
• arXiv: https://arxiv.org/abs/2012.14214
• Github: https://github.com/yangsenius/TransPose
• Pytorch hub形式でもモデル配布
• タイトルのノリだけで選びました
4

研究の背景
• 画像からの人物姿勢推定
• CNNによる人物姿勢推定が主流
• CNNによる人物姿勢推定の辛いところ
• 各層が何をしているのか良くわからない
• 特徴マップのActivationを見ても，空間中の相互関係はわからない
• 畳み込み層のパラメータ（固定）では表現に限界がある
• 画像認識や物体検出のような可視化手法が確立されていない
• この研究
• 説明性のあるモデル
• 画像内の関連を可視化
5

関連研究
• 説明性
• CNNのクラス分類器の分類を説明したり可視化したりするもの
• Network Dissection, Feature Visualization, Excitation Backprop,
LRP, CAM, Grad-CAM
• 姿勢推定での事例は少ない
• 姿勢推定
• CNNベースの姿勢推定器
• CPM, Stacked Hourglass Network, FPN, CPN, Simple Baseline, HRNet, RSN
• 基本は，バックボーンで特徴をとって，
畳み込み層を重ねて特徴点ヒートマップを推定する
• Transformer
• もうご存知ですよね
6

提案手法
• 姿勢推定問題にTransformerのEncoderを導入
• Self Attentionを可視化することで，画素間の関係を確認
• Positional Encoderに工夫
7
実際のモデルを見ると，この接続もありそう
特に言及されていないけどTop-down姿勢推定器です
※図は論文より引用

補足：姿勢推定
• Top-down 姿勢推定器
• 人物検出をしたうえで，人物の矩形内で各関節位置を推定する手法
• Stacked Hourglass Network, CPN, SimpleBaselineなど
• 人物サイズが正規化されるため，大きさの変化に比較的頑健
• Bottom-up 姿勢推定器
• 人物を区別せずに関節候補点を求め，人物ごとにまとめる手法
• OpenPose, PersonLab , PifPafなど
• 人数が増えても速度低下しにくい
8

CNNではなくTransformerを使うことのメリット
• 周囲（特に遠く）の情報をふまえた推定が容易
9
CNNは何段も必要 Transformerだと1発！！

この論文でのTransformerの使い方
• Dチャネルの特徴マップの各画素をD次元ベクトルの単語とみなす
10
バックボーン特徴マップ
入力画像分割 Transformer
Encoder
W
H
D
D次元ベクトルが
WxH個
256x192
浅い
CNN
入力の1/4∼1/8のサイズ

2次元のPositional Encoding
• 空間構造を学習するために特徴量に位置情報を埋め込む
• もとのTransformerでは文中の単語の位置に応じてsinやcosの値を足す
• 2D Sine position embedding
• 位置情報はx, y 軸で独立だと仮定し，独立に埋め込み
• Learnable position embedding
• どの位置にどんな値を埋め込むかを学習によって決定する
• (WxH)xDの行列の各要素の値を学習
12
+
+ 学習

Attentionとヒートマップの可視化
• Attention：QueryとKeyの積
• 特徴マップの画素数x画素数の行列
• Attentionの可視化
• Aのi行目を可視化
• その点の位置が，他の場所からどれだけ影響を受けているか
• Aのj行目を可視化
• その点の位置が，他の場所にどれだけ影響を与えているか
13
Q K
d
A
i番目からj番目への
影響度的なもの
WH
WH
WH
画像化
画像化
A
WH
WH V
d d
* Softmaxとか色々省略してます
出力 WH
それぞれ行列を掛けて，
Q, K, Vを作っておく

実験
• MS COCO Datasetを利用
• Train2017 150k人を含む57k枚の画像
• Val2017 5k枚の画像
• Test2017 20k枚の画像
• 評価指標：
• Average Precision (AP)
• OKSに対する閾値を0.50∼0.95まで10段階変化させたときの正解率
• Object Keypoint Similarity (OKS)
• 関節点の類似度を表す指標
• 完全に一致していれば1になる
14

Position Embeddingの評価
• 学習するものより，2DのSine関数の方がAPが良かった
15
（何かおかしいような…パラメータ数は増えないはず🤔）
※表は論文より引用

他の手法との姿勢推定結果比較
• 高いAPを保ったまま，パラメータ数・計算量の削減を実現
16
精度をキープ
モデルサイズを削減 ※表は論文より引用

ヒートマップの可視化
• 各関節（星印の点）がどこから強く影響を受けているかを可視化
• 動きにくい点や反対側の点からの影響が強い傾向がある？
17

まとめ
• Transformerを使った姿勢推定器の提案
• 人体構造の推定問題へのTransformerの初応用
• ヒートマップの可視化による説明性
• 73%少ないパラメータで1.4倍高速
• Transformerを使うことで
• 畳込みでは捉えられない離れた位置の関係を獲得
• 説明性は…
• 画素間の関係を捉えているだけでイマイチでは？
19
研究員や博士課程の学生など
一緒に研究してくれる人を
絶賛募集しています！
問い合わせは @yasutomo57jp 宛でも可
ロボットによる
環境認識や
人に関する認識
研究をしたい方

関連する論文
• TokenPose: Learning Keypoint Tokens for Human Pose Estimation
• 同じ著者が属するグループからのarXiv論文 (2021/04/09)
• Transformerに，Visual tokenだけでなく，Keypoint tokenを追加
• どの画素がどの関節点に効いているのかを可視化
20
この部分が追加されている

TransPose: Towards Explainable Human Pose Estimation by Transformer

More Related Content

What's hot

Similar to TransPose: Towards Explainable Human Pose Estimation by Transformer

More from Yasutomo Kawanishi

Recently uploaded

TransPose: Towards Explainable Human Pose Estimation by Transformer