SlideShare a Scribd company logo
1 of 36
Download to read offline
Realtime Multi-Person 2D Pose Estimation
using Part Affinity Fields
東京⼤学⼤学院⼯学系研究科
技術経営戦略学専攻
松尾研究室
⼤野峻典
@ono_shunsuke
夏のトップカンファレンス論⽂読み会
⾃⼰紹介
⼤野峻典
• 東京⼤学松尾研究室, FiNC
– 画像認識(Object Detection), ⾃然⾔語処理(NLU系)
– deeplearning.jp 輪読会, 実装勉強会 @東⼤
• バックグラウンド
– もと:Web系エンジニア
– いま: 画像認識, ⾃然⾔語処理 (2017~)
• Twitter: @ono_shunsuke
2
姿勢分析 チャットボット
書誌情報
3
• 論⽂名:“Realtime Multi-Person 2D Pose Estimation using Part Affinity
Fields”
– https://arxiv.org/abs/1611.08050
• 著者:Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh
– The Robotics Institute, Carnegie Mellon University
• 公開⽇:24 Nov 2016
• CVPR 2017 Oral
• Slide
• Video
• ※ 特に断りが無い場合は, 上記論⽂, Slide, Videoから引⽤
アジェンダ
4
• Pose Estimationタスクとは
• ⾝体部位の関係性(part affinity)を活かした, 姿勢推定(pose estimation)
– 論⽂の主張
– 従来⼿法の問題点
– 提案⼿法
– 定式化
– 実験結果
• おわりに
アジェンダ
5
• Pose Estimationタスクとは
• ⾝体部位の関係性(part affinity)を活かした, 姿勢推定(pose estimation)
– 論⽂の主張
– 従来⼿法の問題点
– 提案⼿法
– 定式化
– 実験結果
• おわりに
Pose Estimationタスクとは
• 複数⼈写っている2D画像中の, 各⼈の各⾝体部位の位置を検知する.
– こんな感じ
• 難しさ
– ⼈数、スケールが不定
– ⼈同⼠のインタラクション
– ⼈数に⽐例して計算量増加
6
“Realtime Multi-Person 2D Pose Estimation
using Part Affinity Fields"
「⾝体部位の関係性(part affinity)を活かした,
リアルタイムの2D姿勢推定」
7
アジェンダ
8
• Pose Estimationタスクとは
• ⾝体部位の関係性(part affinity)を活かした, 姿勢推定(pose estimation)
– 論⽂の主張
– 従来⼿法の問題点
– 提案⼿法
– 定式化
– 実験結果
• おわりに
論⽂の主張
• 画像中の⾝体部位の位置のみではなく, 部位間の関係性(繋がり)もエンコー
ドしよう.
• この⼿法によって, 「画像中の⼈を検知してから各⼈に対してそれぞれpose
estimationを実⾏するtop-downアプローチ」ではなく, 「⼀度に画像全体
の⽂脈から複数⼈に対してpose estimationを⾏うbottom-upアプローチ」
が可能になり, 推定の精度・速度を改善できる.
• + 提案⼿法で肝になっているのは,
– エンコーディングを学ぶCNNユニットのステージを繰り返すこと
– ⾝体部位の位置, 部位間の関係性のエンコーディングを共通で学習するアーキテクチャ
9
アジェンダ
10
• Pose Estimationタスクとは
• ⾝体部位の関係性(part affinity)を活かした, 姿勢推定(pose estimation)
– 論⽂の主張
– 従来⼿法の問題点
– 提案⼿法
– 定式化
– 実験結果
• おわりに
従来⼿法の問題点
• 従来のTop-down アプローチ:⼈の検知を⾏い, その後に各⼈に姿勢推定
– ❌ ①⼈の検知に失敗すると, 姿勢推定できない
– ❌ ②⼈数分, 姿勢推定実⾏するので, ⼈数に⽐例して計算量増加
• 従来のBottom-Up アプローチ:写真中の各部位を検知し, 繋ぎ合わせるこ
とで⼀度で, 全ての⼈の姿勢を推定
– ⭕ ①ʼ 検知, 推定と別のステップを踏まないので, 上記①に対して⽐較的ロバスト
– ⭕ ②ʼ 計算量抑えられうる
– ❌ 既存⼿法では, 部位間の繋ぎ合わせの精度低い/繋ぎ合わせ推定の計算量が⼤きい. 画
像全体のコンテキスト情報を⼗分に利⽤できていないため.
11
⼈検知 姿勢推定 x n⼈
部位検知
部位の
繋ぎ合わせ
アジェンダ
12
• Pose Estimationタスクとは
• ⾝体部位の関係性(part affinity)を活かした, 姿勢推定(pose estimation)
– 論⽂の主張
– 従来⼿法の問題点
– 提案⼿法
– 定式化
– 実験結果
• おわりに
提案⼿法: Part Affinity Fieldsの導⼊
• 従来のボトムアップ⼿法では, 検知した部位間の繋ぎ合わせが難しく, そこ
で精度落ちたり, 組み合わせ爆発による計算量増加などの問題があった.
– 部位間の中間点を取るなど位置情報を追加する⼿法は, 提案されていたが, 向き情報が
無く表現⼒に限界があった.
• ⇛ 位置情報, 向き情報を含んだ表現(Part Affinity Fields)を提案
– 各limb(部位の繋ぎ合わせ部分)を, 2Dベクトルでエンコードできるフィルタを学習
13
チャネルごとに各部位間の流れをエンコード(図は⼆⼈の左上腕の流れ)
提案⼿法: アーキテクチャ (1/4)
• (a) ⼊⼒画像
• (b) 各チャネルで各部位検知 (confidence map)
– 出⼒:各部位(ex. 右肩, 右肘, …)がありそうな度合(confidence)をpx位置ごとencode.
• (c) 部位の関連度のエンコード (affinity fields)
– 出⼒:各部位間(ex. 右上腕, 右太もも, …)の流れ(2d vector)をpx位置ごとにencode.
• (d) b, cを元に, 最も確からしい部位同⼠をつなぎ合わせる.
– Ex. どの右肘と, どの右肩をつなぐべきか
• (e) 結果
– 各部位に関するdの出⼒を合計して, 結果.
14
<⼊⼒から出⼒の流れ>
提案⼿法: アーキテクチャ (2/4)
• Branch1でconfidence mapの予測, Branch2でpart affinity fieldsの予測
• 同じBranch1, Branch2を持つユニットを繰り返す(Stage 1 ~ Stage 6)
• 各Stageにおける⼊⼒は, 1つ前のStageにおけるBranch1, Branch2, 元の
Stage1の⼊⼒Fをconcatenateしたもの. (= 部位検知と, 繋ぎ合わせエン
コードを共同で⾏っている)
• Stageごとに誤差計算.
15
c
特徴ベクタ
提案⼿法: アーキテクチャ (3/4)
• Stageを重ねる事で精度が上がる.
– 上は, confidence map. 右⼿⾸を検知するチャネル. Stageを重ねるごとに右⼿⾸の
confidenceが上がり, そうでない箇所のconfidenceが下がることがわかる.
– 下は, part affinity field. 右上腕の流れをencodeするチャネル. Stageを重ねるごとに
右上腕の確からしさが上がり, そうでない箇所が薄くなることがわかる.
16
右⼿⾸検知
右上腕検知
提案⼿法: アーキテクチャ (4/4)
• 検知された部位達(part confidence map)同⼠を, 繋がりのencoding(part
affinity fields)的な確からしさを最⼤化するように, マッチングする.
• 繋ぎ合わせ問題は, 網羅的にやると, NP-Hard問題なため, 以下の2つの緩和
法を導⼊.
– (1) 各部位にとなり合うべき部位の事前情報を与える. (ex. 右肩とつながるのは, ⾸と
右肘のみ.)
– (2) 隣合う部位のみを⾒て, part affinity fields的な確からしさを最⼤化するようにマッ
チングする. (→ 実際これで精度出る(後述). Part affinity fieldsのglobal情報のencode
がうまくいっているよう.)
17
(1) (2)
アジェンダ
18
• Pose Estimationタスクとは
• ⾝体部位の関係性(part affinity)を活かした, 姿勢推定(pose estimation)
– 論⽂の主張
– 従来⼿法の問題点
– 提案⼿法
– 定式化
– 実験結果
• おわりに
定式化:誤差関数
• Stage tにおける誤差関数
• 全体の⽬的関数:全ステージ⾜し合わせ
19
正解値予測値
正解値予測値
各場所p pでのアノテーションが抜けているかで0,1のbinary mask各部位j
各繋がりc
Stage tにおける
Part confidence map S
Stage tにおける
Part affinity field L
定式化:Part Confidence Mapの正解値
• Part Confidence Mapの正解値 S* を, 部位位置がアノテーションされた2D
画像から作成.
• アノテーションされた点をピークに持つ分布で表現する.
• 1つのチャネルが全ての⼈の1つの部位を担当して予測するので, それに形式
をあわせるため, 全ての⼈に関してmapを合体. Max オペレータを使⽤し,
ピークを明確に保つ.
• Test時は, non-maxmum suppressionにより, 各部位の予測位置を得る.
– (補⾜)Non-maximum suppression:閾値以上の割合で分布がかぶっている場合、 最も
⾼いconfidence を持つ分布を残す. 20
⼈k部位j
アノテーションされた座標点 x
ピークの広がり具合を調整する項 σ
定式化:Part Affinity Fieldsの正解値
• Part Confidence Mapの正解値 L* を, 部位位置がアノテーションされた2D
画像から作成.
• 2部位の間, かつ, ⼀定の幅σのキョリにある点pが, 2部位間の単位ベクトル
vを持つようにする. それ以外の点は全てゼロベクトルに.
• 前ページ同様, 予測される形に合わせて, 全ての⼈に関してfieldsを合体して,
limbごとのfieldを作成. Averageオペレータを使⽤.
21
2部位の線分からのキョリがしきい値σ以下か2部位の線分上か
nc(p): 場所pで, k⼈の中でzeroじゃないベクトルの数. (limbが被る場合のみ平均取る)
定式化:部位マッチング
• 検知された部位間のマッチングを考える.
• 部位間の繋がりの確からしさを, Part Affinity Fieldsを⽤いて測る. 検出さ
れた部位同⼠を結ぶ線分上で線積分する.
• 各部位cを最⼤化するようなZc(各部位の繋ぎ合わせ⽅). 各limb typeに対し
て, 独⽴にE最⼤化するようなつなぎあわせを選ぶ.
22
部位間の線分上の点p(u) 部位間の単位ベクトルかけることで,
部位間の⽅向に沿って値評価
アジェンダ
23
• Pose Estimationタスクとは
• ⾝体部位の関係性(part affinity)を活かした, 姿勢推定(pose estimation)
– 論⽂の主張
– 従来⼿法の問題点
– 提案⼿法
– 定式化
– 実験結果
• おわりに
実験結果
• 複数⼈pose estimationの2つのベンチマーク
– (1) MPII human multi-person dataset (25k images, 40k ppl, 410 human
activities)
– (2) the COCO 2016 keypoints challenge dataset(100k person, 1 million
keypoints)
24
実験結果: MPII Multi-Person Dataset
• 精度(mAP): 今回の⼿法で従来のSotAを8.5%上回る
– Scale search無くとも既存⼿法より良い. MAPIIデータ全体では, 13%良くなった. さ
らにscale searchで良くなる.
– → 既存⼿法に⽐べてPAFsが部位間の関係性を表現するのに有効なことがわかる.
• 速度(inference time): 6桁早くなった.
• ※ 閾値はPCKhで, mean Average Precision(mAP)を指標に⽐較.
25
実験結果: MPII Multi-Person Dataset
• PAF利⽤は, 中間点表⽰(-,-)利⽤した結果より優れてる.
• マスクによりTrue Positiveのロス防ぐと, 2.3%精度上がる.
• 部位DetectionのGround Truth(GT)を⽤いて, PAFsのみ予測⾏うと, mAP
88.3%.
• 部位ConnectionのGTを⽤いて, Detectだけ⾏うケースでは, mAP 81.6%.
– → PAFによるconnection判定と, ほぼ精度が変わらない. (79.4% vs 81.6%) . PAFが,
⾮常に⾼い精度で検出できること⽰している.
26
実験結果: COCO Keypoints Challenge
• → ⽐較的⼩さいスケールの⼈(APM)のみ, top-downアプローチの⼿法に精
度負けてる.
– 理由: 本⼿法では, 他よりはるかに⼤きいスケールで, 画像内の全ての⼈々を⼀⻫に扱わ
ないといけない. ⇔ top-downアプローチでは, ⼈を検知してその⼈ごとに切り取って
拡⼤して扱えるので, ⼩さいスケールによる影響が⽐較的⼩さくなるのでは.
27
実験結果: COCO Keypoints Challenge
• ① GT bounding Box + Convolutional Pose Machine(CPM)
• ② GTの代わりにSSD利⽤すると↑より, パフォーマンスは10%低下する.
• ③ 本⼿法のボトムアップ⽅式では, 58.4%のAPを達成.
• ④ 本⼿法で最スケーリングされた各領域に, ⼀⼈⼀⼈にCPMを適⽤するこ
とで, 2.6%のAP改善される.
– → より⼤きなスケールでのsearchが, ボトムアップ⼿法のパフォーマンスを向上させる
ことが期待できる.
28
①
②
③
④
実験結果: ⼈数による速度変化
• Top-downアプローチと違い, Bottom-upアプローチでは, Runtimeが⼈の
⼈数に⽐例してほとんど変わらないことわかる.
29
アジェンダ
30
• Pose Estimationタスクとは
• ⾝体部位の関係性(part affinity)を活かした, 姿勢推定(pose estimation)
– 論⽂の主張
– 従来⼿法の問題点
– 提案⼿法
– 定式化
– 実験結果
• おわりに
おわりに
• 画像内の⼈物理解において, 複数⼈物の2次元姿勢⼤事.
• 今回の⼯夫
– 1. 部位の位置と, ⽅向の両⽅を符号化する表現.
– 2. 部位検出と関係性を共同で学ぶアーキテクチャ.
– 3. greedyアルゴリズムにより⼈の数が増えてもマッチング計算量抑え, 精度⼗分.
• 代表的な失敗事例
31
実装
• C++:https://github.com/CMU-Perceptual-Computing-Lab/openpose
• Caffe:https://github.com/ZheC/Realtime_Multi-
Person_Pose_Estimation
• PyTorch:https://github.com/tensorboy/pytorch_Realtime_Multi-
Person_Pose_Estimation (train未実装)
32
実験結果: MPII Multi-Person Dataset
• 異なるスケルトン構造の⽐較結果
– 最⼩限のedgeで貪欲アルゴリズムによってとかれたものが精度, 速度ともに最⾼.
– (6d)のグラフが精度最も良くなっている.トレーニングの収束がはるかに容易になるた
めと考えられる.(13 edges vs 91 edges)
33
Results > Results on the MPII Multi-Person Dataset
• 補⾜
– mean Average Precision(mAP)
• Precision:システムが正例と判定したもののうち、実際に正例だったものの割合. (正確さ)
– 部位判定したもののうち、正しかったものの割合
• Recall:データセットの正例全体のうち、システムが正例と判定したものの割合(カバー率)
– データセットでアノテートされている部位のうち、正しく検知されたものの割合
• Average Precision(AP: 平均適合率):PrecisionをRecallについて平均とったもの.
– 以下の式で近似しているもの多い. (I: 正例なら1, 負例なら0の関数)
34引⽤:http://sucrose.hatenablog.com/entry/2017/02/26/224559
Results > Results on the MPII Multi-Person Dataset
• 補⾜
– mean Average Precision(mAP):今回の場合
• mAP:全ての⼈の部位に対する平均のprecision。
– まず、複数体写っている画像に対してpose estimation実⾏。
– 最も⾼いPCKh閾値にもとづいて、estimateされたポイントをground truth(GT)に割り合ててく。
– GTに割り当てられなかった予測ポイントは、false positiveとして扱う。
– 各部位ごとにAverage Precision(AP)を計算。
– 全体の部位に関してAPの平均を取って、mAPになる。
– PCKh threshhold:
• PCP:あるパーツの両端の部位の検出位置が、そのパーツの⻑さの半分よりも正解に近ければ
検出成功とする.
• PCK:⼈物のbounding boxサイズの逆数を閾値として定義
• PCKh:Headセグメントの50%の⻑さを閾値として定義
35
補⾜: IoU
• 引⽤: http://www.pyimagesearch.com/2016/11/07/intersection-
over-union-iou-for-object-detection/
36

More Related Content

What's hot

機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)Satoshi Hara
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成Yoshitaka Ushiku
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイcvpaper. challenge
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説tancoro
 
最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925小川 雄太郎
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformercvpaper. challenge
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイyohei okawa
 
TransPose: Towards Explainable Human Pose Estimation by Transformer
TransPose: Towards Explainable Human Pose Estimation by TransformerTransPose: Towards Explainable Human Pose Estimation by Transformer
TransPose: Towards Explainable Human Pose Estimation by TransformerYasutomo Kawanishi
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話Yusuke Uchida
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報Deep Learning JP
 
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)Preferred Networks
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?Deep Learning JP
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会takehikoihayashi
 
Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向Ohnishi Katsunori
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -tmtm otm
 
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Masaya Kaneko
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual FeaturesARISE analytics
 

What's hot (20)

機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
 
最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925
 
Depth Estimation論文紹介
Depth Estimation論文紹介Depth Estimation論文紹介
Depth Estimation論文紹介
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
 
TransPose: Towards Explainable Human Pose Estimation by Transformer
TransPose: Towards Explainable Human Pose Estimation by TransformerTransPose: Towards Explainable Human Pose Estimation by Transformer
TransPose: Towards Explainable Human Pose Estimation by Transformer
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
 
Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 

Similar to 夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...cvpaper. challenge
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Satoshi Kato
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2Hirokatsu Kataoka
 
Deep Residual Learning (ILSVRC2015 winner)
Deep Residual Learning (ILSVRC2015 winner)Deep Residual Learning (ILSVRC2015 winner)
Deep Residual Learning (ILSVRC2015 winner)Hirokatsu Kataoka
 
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」Naoya Chiba
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-studyNaoya Chiba
 
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...Deep Learning JP
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)kanejaki
 
【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究Hirokatsu Kataoka
 
画像処理分野における研究事例紹介
画像処理分野における研究事例紹介画像処理分野における研究事例紹介
画像処理分野における研究事例紹介nlab_utokyo
 
Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするDaiki Shimada
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイNaoya Chiba
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...Deep Learning JP
 
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東Yukiyoshi Sasao
 
CVPR2015読み会 "Joint Tracking and Segmentation of Multiple Targets"
CVPR2015読み会 "Joint Tracking and Segmentation of Multiple Targets"CVPR2015読み会 "Joint Tracking and Segmentation of Multiple Targets"
CVPR2015読み会 "Joint Tracking and Segmentation of Multiple Targets"Yuki Nagai
 
[DL輪読会]FOTS: Fast Oriented Text Spotting with a Unified Network
[DL輪読会]FOTS: Fast Oriented Text Spotting with a Unified Network[DL輪読会]FOTS: Fast Oriented Text Spotting with a Unified Network
[DL輪読会]FOTS: Fast Oriented Text Spotting with a Unified NetworkDeep Learning JP
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel弘毅 露崎
 

Similar to 夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields (20)

これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
Deep Residual Learning (ILSVRC2015 winner)
Deep Residual Learning (ILSVRC2015 winner)Deep Residual Learning (ILSVRC2015 winner)
Deep Residual Learning (ILSVRC2015 winner)
 
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-study
 
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
20150414seminar
20150414seminar20150414seminar
20150414seminar
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
 
【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究
 
CVPR 2018 速報
CVPR 2018 速報CVPR 2018 速報
CVPR 2018 速報
 
画像処理分野における研究事例紹介
画像処理分野における研究事例紹介画像処理分野における研究事例紹介
画像処理分野における研究事例紹介
 
Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をする
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
 
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
 
CVPR2015読み会 "Joint Tracking and Segmentation of Multiple Targets"
CVPR2015読み会 "Joint Tracking and Segmentation of Multiple Targets"CVPR2015読み会 "Joint Tracking and Segmentation of Multiple Targets"
CVPR2015読み会 "Joint Tracking and Segmentation of Multiple Targets"
 
[DL輪読会]FOTS: Fast Oriented Text Spotting with a Unified Network
[DL輪読会]FOTS: Fast Oriented Text Spotting with a Unified Network[DL輪読会]FOTS: Fast Oriented Text Spotting with a Unified Network
[DL輪読会]FOTS: Fast Oriented Text Spotting with a Unified Network
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel
 

Recently uploaded

【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 

Recently uploaded (9)

【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 

夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

  • 1. Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields 東京⼤学⼤学院⼯学系研究科 技術経営戦略学専攻 松尾研究室 ⼤野峻典 @ono_shunsuke 夏のトップカンファレンス論⽂読み会
  • 2. ⾃⼰紹介 ⼤野峻典 • 東京⼤学松尾研究室, FiNC – 画像認識(Object Detection), ⾃然⾔語処理(NLU系) – deeplearning.jp 輪読会, 実装勉強会 @東⼤ • バックグラウンド – もと:Web系エンジニア – いま: 画像認識, ⾃然⾔語処理 (2017~) • Twitter: @ono_shunsuke 2 姿勢分析 チャットボット
  • 3. 書誌情報 3 • 論⽂名:“Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields” – https://arxiv.org/abs/1611.08050 • 著者:Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh – The Robotics Institute, Carnegie Mellon University • 公開⽇:24 Nov 2016 • CVPR 2017 Oral • Slide • Video • ※ 特に断りが無い場合は, 上記論⽂, Slide, Videoから引⽤
  • 4. アジェンダ 4 • Pose Estimationタスクとは • ⾝体部位の関係性(part affinity)を活かした, 姿勢推定(pose estimation) – 論⽂の主張 – 従来⼿法の問題点 – 提案⼿法 – 定式化 – 実験結果 • おわりに
  • 5. アジェンダ 5 • Pose Estimationタスクとは • ⾝体部位の関係性(part affinity)を活かした, 姿勢推定(pose estimation) – 論⽂の主張 – 従来⼿法の問題点 – 提案⼿法 – 定式化 – 実験結果 • おわりに
  • 6. Pose Estimationタスクとは • 複数⼈写っている2D画像中の, 各⼈の各⾝体部位の位置を検知する. – こんな感じ • 難しさ – ⼈数、スケールが不定 – ⼈同⼠のインタラクション – ⼈数に⽐例して計算量増加 6
  • 7. “Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields" 「⾝体部位の関係性(part affinity)を活かした, リアルタイムの2D姿勢推定」 7
  • 8. アジェンダ 8 • Pose Estimationタスクとは • ⾝体部位の関係性(part affinity)を活かした, 姿勢推定(pose estimation) – 論⽂の主張 – 従来⼿法の問題点 – 提案⼿法 – 定式化 – 実験結果 • おわりに
  • 9. 論⽂の主張 • 画像中の⾝体部位の位置のみではなく, 部位間の関係性(繋がり)もエンコー ドしよう. • この⼿法によって, 「画像中の⼈を検知してから各⼈に対してそれぞれpose estimationを実⾏するtop-downアプローチ」ではなく, 「⼀度に画像全体 の⽂脈から複数⼈に対してpose estimationを⾏うbottom-upアプローチ」 が可能になり, 推定の精度・速度を改善できる. • + 提案⼿法で肝になっているのは, – エンコーディングを学ぶCNNユニットのステージを繰り返すこと – ⾝体部位の位置, 部位間の関係性のエンコーディングを共通で学習するアーキテクチャ 9
  • 10. アジェンダ 10 • Pose Estimationタスクとは • ⾝体部位の関係性(part affinity)を活かした, 姿勢推定(pose estimation) – 論⽂の主張 – 従来⼿法の問題点 – 提案⼿法 – 定式化 – 実験結果 • おわりに
  • 11. 従来⼿法の問題点 • 従来のTop-down アプローチ:⼈の検知を⾏い, その後に各⼈に姿勢推定 – ❌ ①⼈の検知に失敗すると, 姿勢推定できない – ❌ ②⼈数分, 姿勢推定実⾏するので, ⼈数に⽐例して計算量増加 • 従来のBottom-Up アプローチ:写真中の各部位を検知し, 繋ぎ合わせるこ とで⼀度で, 全ての⼈の姿勢を推定 – ⭕ ①ʼ 検知, 推定と別のステップを踏まないので, 上記①に対して⽐較的ロバスト – ⭕ ②ʼ 計算量抑えられうる – ❌ 既存⼿法では, 部位間の繋ぎ合わせの精度低い/繋ぎ合わせ推定の計算量が⼤きい. 画 像全体のコンテキスト情報を⼗分に利⽤できていないため. 11 ⼈検知 姿勢推定 x n⼈ 部位検知 部位の 繋ぎ合わせ
  • 12. アジェンダ 12 • Pose Estimationタスクとは • ⾝体部位の関係性(part affinity)を活かした, 姿勢推定(pose estimation) – 論⽂の主張 – 従来⼿法の問題点 – 提案⼿法 – 定式化 – 実験結果 • おわりに
  • 13. 提案⼿法: Part Affinity Fieldsの導⼊ • 従来のボトムアップ⼿法では, 検知した部位間の繋ぎ合わせが難しく, そこ で精度落ちたり, 組み合わせ爆発による計算量増加などの問題があった. – 部位間の中間点を取るなど位置情報を追加する⼿法は, 提案されていたが, 向き情報が 無く表現⼒に限界があった. • ⇛ 位置情報, 向き情報を含んだ表現(Part Affinity Fields)を提案 – 各limb(部位の繋ぎ合わせ部分)を, 2Dベクトルでエンコードできるフィルタを学習 13 チャネルごとに各部位間の流れをエンコード(図は⼆⼈の左上腕の流れ)
  • 14. 提案⼿法: アーキテクチャ (1/4) • (a) ⼊⼒画像 • (b) 各チャネルで各部位検知 (confidence map) – 出⼒:各部位(ex. 右肩, 右肘, …)がありそうな度合(confidence)をpx位置ごとencode. • (c) 部位の関連度のエンコード (affinity fields) – 出⼒:各部位間(ex. 右上腕, 右太もも, …)の流れ(2d vector)をpx位置ごとにencode. • (d) b, cを元に, 最も確からしい部位同⼠をつなぎ合わせる. – Ex. どの右肘と, どの右肩をつなぐべきか • (e) 結果 – 各部位に関するdの出⼒を合計して, 結果. 14 <⼊⼒から出⼒の流れ>
  • 15. 提案⼿法: アーキテクチャ (2/4) • Branch1でconfidence mapの予測, Branch2でpart affinity fieldsの予測 • 同じBranch1, Branch2を持つユニットを繰り返す(Stage 1 ~ Stage 6) • 各Stageにおける⼊⼒は, 1つ前のStageにおけるBranch1, Branch2, 元の Stage1の⼊⼒Fをconcatenateしたもの. (= 部位検知と, 繋ぎ合わせエン コードを共同で⾏っている) • Stageごとに誤差計算. 15 c 特徴ベクタ
  • 16. 提案⼿法: アーキテクチャ (3/4) • Stageを重ねる事で精度が上がる. – 上は, confidence map. 右⼿⾸を検知するチャネル. Stageを重ねるごとに右⼿⾸の confidenceが上がり, そうでない箇所のconfidenceが下がることがわかる. – 下は, part affinity field. 右上腕の流れをencodeするチャネル. Stageを重ねるごとに 右上腕の確からしさが上がり, そうでない箇所が薄くなることがわかる. 16 右⼿⾸検知 右上腕検知
  • 17. 提案⼿法: アーキテクチャ (4/4) • 検知された部位達(part confidence map)同⼠を, 繋がりのencoding(part affinity fields)的な確からしさを最⼤化するように, マッチングする. • 繋ぎ合わせ問題は, 網羅的にやると, NP-Hard問題なため, 以下の2つの緩和 法を導⼊. – (1) 各部位にとなり合うべき部位の事前情報を与える. (ex. 右肩とつながるのは, ⾸と 右肘のみ.) – (2) 隣合う部位のみを⾒て, part affinity fields的な確からしさを最⼤化するようにマッ チングする. (→ 実際これで精度出る(後述). Part affinity fieldsのglobal情報のencode がうまくいっているよう.) 17 (1) (2)
  • 18. アジェンダ 18 • Pose Estimationタスクとは • ⾝体部位の関係性(part affinity)を活かした, 姿勢推定(pose estimation) – 論⽂の主張 – 従来⼿法の問題点 – 提案⼿法 – 定式化 – 実験結果 • おわりに
  • 19. 定式化:誤差関数 • Stage tにおける誤差関数 • 全体の⽬的関数:全ステージ⾜し合わせ 19 正解値予測値 正解値予測値 各場所p pでのアノテーションが抜けているかで0,1のbinary mask各部位j 各繋がりc Stage tにおける Part confidence map S Stage tにおける Part affinity field L
  • 20. 定式化:Part Confidence Mapの正解値 • Part Confidence Mapの正解値 S* を, 部位位置がアノテーションされた2D 画像から作成. • アノテーションされた点をピークに持つ分布で表現する. • 1つのチャネルが全ての⼈の1つの部位を担当して予測するので, それに形式 をあわせるため, 全ての⼈に関してmapを合体. Max オペレータを使⽤し, ピークを明確に保つ. • Test時は, non-maxmum suppressionにより, 各部位の予測位置を得る. – (補⾜)Non-maximum suppression:閾値以上の割合で分布がかぶっている場合、 最も ⾼いconfidence を持つ分布を残す. 20 ⼈k部位j アノテーションされた座標点 x ピークの広がり具合を調整する項 σ
  • 21. 定式化:Part Affinity Fieldsの正解値 • Part Confidence Mapの正解値 L* を, 部位位置がアノテーションされた2D 画像から作成. • 2部位の間, かつ, ⼀定の幅σのキョリにある点pが, 2部位間の単位ベクトル vを持つようにする. それ以外の点は全てゼロベクトルに. • 前ページ同様, 予測される形に合わせて, 全ての⼈に関してfieldsを合体して, limbごとのfieldを作成. Averageオペレータを使⽤. 21 2部位の線分からのキョリがしきい値σ以下か2部位の線分上か nc(p): 場所pで, k⼈の中でzeroじゃないベクトルの数. (limbが被る場合のみ平均取る)
  • 22. 定式化:部位マッチング • 検知された部位間のマッチングを考える. • 部位間の繋がりの確からしさを, Part Affinity Fieldsを⽤いて測る. 検出さ れた部位同⼠を結ぶ線分上で線積分する. • 各部位cを最⼤化するようなZc(各部位の繋ぎ合わせ⽅). 各limb typeに対し て, 独⽴にE最⼤化するようなつなぎあわせを選ぶ. 22 部位間の線分上の点p(u) 部位間の単位ベクトルかけることで, 部位間の⽅向に沿って値評価
  • 23. アジェンダ 23 • Pose Estimationタスクとは • ⾝体部位の関係性(part affinity)を活かした, 姿勢推定(pose estimation) – 論⽂の主張 – 従来⼿法の問題点 – 提案⼿法 – 定式化 – 実験結果 • おわりに
  • 24. 実験結果 • 複数⼈pose estimationの2つのベンチマーク – (1) MPII human multi-person dataset (25k images, 40k ppl, 410 human activities) – (2) the COCO 2016 keypoints challenge dataset(100k person, 1 million keypoints) 24
  • 25. 実験結果: MPII Multi-Person Dataset • 精度(mAP): 今回の⼿法で従来のSotAを8.5%上回る – Scale search無くとも既存⼿法より良い. MAPIIデータ全体では, 13%良くなった. さ らにscale searchで良くなる. – → 既存⼿法に⽐べてPAFsが部位間の関係性を表現するのに有効なことがわかる. • 速度(inference time): 6桁早くなった. • ※ 閾値はPCKhで, mean Average Precision(mAP)を指標に⽐較. 25
  • 26. 実験結果: MPII Multi-Person Dataset • PAF利⽤は, 中間点表⽰(-,-)利⽤した結果より優れてる. • マスクによりTrue Positiveのロス防ぐと, 2.3%精度上がる. • 部位DetectionのGround Truth(GT)を⽤いて, PAFsのみ予測⾏うと, mAP 88.3%. • 部位ConnectionのGTを⽤いて, Detectだけ⾏うケースでは, mAP 81.6%. – → PAFによるconnection判定と, ほぼ精度が変わらない. (79.4% vs 81.6%) . PAFが, ⾮常に⾼い精度で検出できること⽰している. 26
  • 27. 実験結果: COCO Keypoints Challenge • → ⽐較的⼩さいスケールの⼈(APM)のみ, top-downアプローチの⼿法に精 度負けてる. – 理由: 本⼿法では, 他よりはるかに⼤きいスケールで, 画像内の全ての⼈々を⼀⻫に扱わ ないといけない. ⇔ top-downアプローチでは, ⼈を検知してその⼈ごとに切り取って 拡⼤して扱えるので, ⼩さいスケールによる影響が⽐較的⼩さくなるのでは. 27
  • 28. 実験結果: COCO Keypoints Challenge • ① GT bounding Box + Convolutional Pose Machine(CPM) • ② GTの代わりにSSD利⽤すると↑より, パフォーマンスは10%低下する. • ③ 本⼿法のボトムアップ⽅式では, 58.4%のAPを達成. • ④ 本⼿法で最スケーリングされた各領域に, ⼀⼈⼀⼈にCPMを適⽤するこ とで, 2.6%のAP改善される. – → より⼤きなスケールでのsearchが, ボトムアップ⼿法のパフォーマンスを向上させる ことが期待できる. 28 ① ② ③ ④
  • 29. 実験結果: ⼈数による速度変化 • Top-downアプローチと違い, Bottom-upアプローチでは, Runtimeが⼈の ⼈数に⽐例してほとんど変わらないことわかる. 29
  • 30. アジェンダ 30 • Pose Estimationタスクとは • ⾝体部位の関係性(part affinity)を活かした, 姿勢推定(pose estimation) – 論⽂の主張 – 従来⼿法の問題点 – 提案⼿法 – 定式化 – 実験結果 • おわりに
  • 31. おわりに • 画像内の⼈物理解において, 複数⼈物の2次元姿勢⼤事. • 今回の⼯夫 – 1. 部位の位置と, ⽅向の両⽅を符号化する表現. – 2. 部位検出と関係性を共同で学ぶアーキテクチャ. – 3. greedyアルゴリズムにより⼈の数が増えてもマッチング計算量抑え, 精度⼗分. • 代表的な失敗事例 31
  • 32. 実装 • C++:https://github.com/CMU-Perceptual-Computing-Lab/openpose • Caffe:https://github.com/ZheC/Realtime_Multi- Person_Pose_Estimation • PyTorch:https://github.com/tensorboy/pytorch_Realtime_Multi- Person_Pose_Estimation (train未実装) 32
  • 33. 実験結果: MPII Multi-Person Dataset • 異なるスケルトン構造の⽐較結果 – 最⼩限のedgeで貪欲アルゴリズムによってとかれたものが精度, 速度ともに最⾼. – (6d)のグラフが精度最も良くなっている.トレーニングの収束がはるかに容易になるた めと考えられる.(13 edges vs 91 edges) 33
  • 34. Results > Results on the MPII Multi-Person Dataset • 補⾜ – mean Average Precision(mAP) • Precision:システムが正例と判定したもののうち、実際に正例だったものの割合. (正確さ) – 部位判定したもののうち、正しかったものの割合 • Recall:データセットの正例全体のうち、システムが正例と判定したものの割合(カバー率) – データセットでアノテートされている部位のうち、正しく検知されたものの割合 • Average Precision(AP: 平均適合率):PrecisionをRecallについて平均とったもの. – 以下の式で近似しているもの多い. (I: 正例なら1, 負例なら0の関数) 34引⽤:http://sucrose.hatenablog.com/entry/2017/02/26/224559
  • 35. Results > Results on the MPII Multi-Person Dataset • 補⾜ – mean Average Precision(mAP):今回の場合 • mAP:全ての⼈の部位に対する平均のprecision。 – まず、複数体写っている画像に対してpose estimation実⾏。 – 最も⾼いPCKh閾値にもとづいて、estimateされたポイントをground truth(GT)に割り合ててく。 – GTに割り当てられなかった予測ポイントは、false positiveとして扱う。 – 各部位ごとにAverage Precision(AP)を計算。 – 全体の部位に関してAPの平均を取って、mAPになる。 – PCKh threshhold: • PCP:あるパーツの両端の部位の検出位置が、そのパーツの⻑さの半分よりも正解に近ければ 検出成功とする. • PCK:⼈物のbounding boxサイズの逆数を閾値として定義 • PCKh:Headセグメントの50%の⻑さを閾値として定義 35
  • 36. 補⾜: IoU • 引⽤: http://www.pyimagesearch.com/2016/11/07/intersection- over-union-iou-for-object-detection/ 36