TransPose: Towards Explainable
Human Pose Estimation by
Transformer
第6回 全日本コンピュータビジョン勉強会
Transformer 読み会
2021/04/18
@yasutomo57jp
https://yasutomo57jp.github.io
自己紹介
• 名前:川西康友
• 所属:理化学研究所
ガーディアンロボットプロジェクト
感覚データ認識研究チーム
• 職場:ATR(けいはんな学研都市)
心を感じられるロボット実現のため,
ロボットによる周囲環境の認識
人の意図や行動の認識
に関する研究を行っています
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
2
ここ
研究員や博士課程の学生など
一緒に研究してくれる人を
絶賛募集しています!
TransPose: Towards Explainable
Human Pose Estimation by
Transformer
第6回 全日本コンピュータビジョン勉強会
Transformer 読み会
2021/04/18
@yasutomo57jp
https://yasutomo57jp.github.io
概要
• Transformerを使った姿勢推定器の提案
• 人体構造の推定問題へのTransformerの初応用
• ヒートマップの可視化による説明性
• 73%少ないパラメータで1.4倍高速
• 書誌情報
• 著者:Sen Yang et al. (東南大学)
• arXiv: https://arxiv.org/abs/2012.14214
• Github: https://github.com/yangsenius/TransPose
• Pytorch hub形式でもモデル配布
• タイトルのノリだけで選びました
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
4
研究の背景
• 画像からの人物姿勢推定
• CNNによる人物姿勢推定が主流
• CNNによる人物姿勢推定の辛いところ
• 各層が何をしているのか良くわからない
• 特徴マップのActivationを見ても,空間中の相互関係はわからない
• 畳み込み層のパラメータ(固定)では表現に限界がある
• 画像認識や物体検出のような可視化手法が確立されていない
• この研究
• 説明性のあるモデル
• 画像内の関連を可視化
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
5
関連研究
• 説明性
• CNNのクラス分類器の分類を説明したり可視化したりするもの
• Network Dissection, Feature Visualization, Excitation Backprop,
LRP, CAM, Grad-CAM
• 姿勢推定での事例は少ない
• 姿勢推定
• CNNベースの姿勢推定器
• CPM, Stacked Hourglass Network, FPN, CPN, Simple Baseline, HRNet, RSN
• 基本は,バックボーンで特徴をとって,
畳み込み層を重ねて特徴点ヒートマップを推定する
• Transformer
• もうご存知ですよね
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
6
提案手法
• 姿勢推定問題にTransformerのEncoderを導入
• Self Attentionを可視化することで,画素間の関係を確認
• Positional Encoderに工夫
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
7
実際のモデルを見ると,この接続もありそう
特に言及されていないけどTop-down姿勢推定器です
※図は論文より引用
補足:姿勢推定
• Top-down 姿勢推定器
• 人物検出をしたうえで,人物の矩形内で各関節位置を推定する手法
• Stacked Hourglass Network, CPN, SimpleBaselineなど
• 人物サイズが正規化されるため,大きさの変化に比較的頑健
• Bottom-up 姿勢推定器
• 人物を区別せずに関節候補点を求め,人物ごとにまとめる手法
• OpenPose, PersonLab , PifPafなど
• 人数が増えても速度低下しにくい
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
8
CNNではなくTransformerを使うことのメリット
• 周囲(特に遠く)の情報をふまえた推定が容易
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
9
CNNは何段も必要 Transformerだと1発!!
※図は論文より引用
この論文でのTransformerの使い方
• Dチャネルの特徴マップの各画素をD次元ベクトルの単語とみなす
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
10
バックボーン 特徴マップ
入力画像 分割 Transformer
Encoder
W
H
D
D次元ベクトルが
WxH個
256x192
浅い
CNN
入力の1/4∼1/8のサイズ
2次元のPositional Encoding
• 空間構造を学習するために特徴量に位置情報を埋め込む
• もとのTransformerでは文中の単語の位置に応じてsinやcosの値を足す
• 2D Sine position embedding
• 位置情報はx, y 軸で独立だと仮定し,独立に埋め込み
• Learnable position embedding
• どの位置にどんな値を埋め込むかを学習によって決定する
• (WxH)xDの行列の各要素の値を学習
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
12
+
+ 学習
Attentionとヒートマップの可視化
• Attention:QueryとKeyの積
• 特徴マップの画素数x画素数の行列
• Attentionの可視化
• Aのi行目を可視化
• その点の位置が,他の場所からどれだけ影響を受けているか
• Aのj行目を可視化
• その点の位置が,他の場所にどれだけ影響を与えているか
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
13
Q K
d
A
i番目からj番目への
影響度的なもの
WH
WH
WH
画像化
画像化
A
WH
WH V
d d
* Softmaxとか色々省略してます
出力 WH
それぞれ行列を掛けて,
Q, K, Vを作っておく
実験
• MS COCO Datasetを利用
• Train2017 150k人を含む57k枚の画像
• Val2017 5k枚の画像
• Test2017 20k枚の画像
• 評価指標:
• Average Precision (AP)
• OKSに対する閾値を0.50∼0.95まで10段階変化させたときの正解率
• Object Keypoint Similarity (OKS)
• 関節点の類似度を表す指標
• 完全に一致していれば1になる
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
14
Position Embeddingの評価
• 学習するものより,2DのSine関数の方がAPが良かった
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
15
(何かおかしいような…パラメータ数は増えないはず🤔)
※表は論文より引用
他の手法との姿勢推定結果比較
• 高いAPを保ったまま,パラメータ数・計算量の削減を実現
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
16
精度をキープ
モデルサイズを削減 ※表は論文より引用
ヒートマップの可視化
• 各関節(星印の点)がどこから強く影響を受けているかを可視化
• 動きにくい点や反対側の点からの影響が強い傾向がある?
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
17
※図は論文より引用
まとめ
• Transformerを使った姿勢推定器の提案
• 人体構造の推定問題へのTransformerの初応用
• ヒートマップの可視化による説明性
• 73%少ないパラメータで1.4倍高速
• Transformerを使うことで
• 畳込みでは捉えられない離れた位置の関係を獲得
• 説明性は…
• 画素間の関係を捉えているだけでイマイチでは?
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
19
研究員や博士課程の学生など
一緒に研究してくれる人を
絶賛募集しています!
問い合わせは @yasutomo57jp 宛でも可
ロボットによる
環境認識や
人に関する認識
研究をしたい方
関連する論文
• TokenPose: Learning Keypoint Tokens for Human Pose Estimation
• 同じ著者が属するグループからのarXiv論文 (2021/04/09)
• Transformerに,Visual tokenだけでなく,Keypoint tokenを追加
• どの画素がどの関節点に効いているのかを可視化
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
20
この部分が追加されている
※図は論文より引用

TransPose: Towards Explainable Human Pose Estimation by Transformer