FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality Assessment (CVPR2022)

FineDiving: A Fine-grained Dataset for
Procedure-aware Action Quality Assessment
smygw

自己紹介
宮川翔貴 (twitter: smygw72)
- 三菱電機情報技術総合研究所
- 興味のある分野: HCI × Deep Learning
- XAI, Human-in-the-loop, Bayesian Optimization
- 今回で2年ぶり2回目の発表です
- 誤りが含まれる可能性がありますが
ご承知おきください

今回紹介する論文
“FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality Assessment”
- 著者: Jinglin Xu et al. (Tsinghua University, China)
- データセットとコードが公開済み https://github.com/xujinglin/FineDiving

今回お話しすること
- Action Quality Assessment (AQA) の概要
- 論文の貢献
- FineDivingというリッチなデータセットを提案
- Procedure-awareな行動認識のために Temporal Segmentation Attention moduleを提案

Action Quality Assessment (AQA) とは？
入力：（主に人の行動を映した）動画あるいはセンサデータなど
出力：定量的なスコア
※ 類似タスクとして”Skill Assessment”がありますが厳密な違いは不明です
7.5点
8.2点

AQA が難しい理由
- 初心者のデータよりも熟練者のデータを集めるのが難しい
- アノテーションには専門家の協力が必要
- 自由度の高い行動が含まれる
- procedureを厳密に定義できないケースが多い（例：お絵描き）
- Fine-grainedな行動認識が必要
- 行動分類とは異なり数フレームだけ見てもわからない
- 解釈性が低い
- どのような行動が予測スコアの判断根拠となったのか分からない
- 既存のデータセットに含まれる情報がリッチでない
- データの多様性が低い (背景があまり変わらないことが多い )
- アノテーション情報が coarse-grained
- スコアの信用性が低い
- 人によって異なる（たとえば、評価する人の熟練度に依存する）

FineDivingという
データセットを提案
AQA が難しい理由
- 初心者のデータよりも熟練者のデータを集めるのが難しい
- アノテーションには専門家の協力が必要
- 自由度の高い行動が含まれる
- procedureを厳密に定義できないケースが多い（例：お絵描き）
- Fine-grainedな行動認識が必要
- 行動分類とは異なり数フレームだけ見てもわからない
- 解釈性が低い
- どのような行動が予測スコアの判断根拠となったのか分からない
- 既存のデータセットに含まれる情報がリッチでない
- データの多様性が低い (背景があまり変わらないことが多い )
- アノテーション情報が coarse-grained
- スコアの信用性が低い
- 人によって異なる（たとえば、評価する人の熟練度に依存する）
Procedureを定義可能な
ケースに特化して
fine-grainedな行動認識
モジュールを提案
本研究の貢献

FineDiving データセット
52種のactionクラスを29種のsub-actionクラスの
シーケンスとして専門家がアノテーション
- 6人の専門家によるダブルチェック
(cross-validating labeling method)
- 120時間かけてアノテーション

FineDiving データセット
- FineDivingではsub-actionクラスレベルで開始フレームがアノテーションされてお
り、既存のデータセットよりもリッチ

関連研究: CoRe (Contrastive Regression)
- Exemplarを基準としたときのスコアの差分を対照学習するフレームワークを提案
- 学習時は同じactionクラスのデータをランダムに選びexemplarとして使用
- 推論時は複数のexemplarを用いてスコアを平均化 (multi-exemplar voting strategy)
- Queryのactionクラスが不明なため性能安定化のために複数のexemplarを使う
※Paper with CodeでSOTAになっている手法
“Group-aware contrastive regression for action quality assessment.” (ICCV 2021)

提案手法
- 学習のフレームワーク、BackboneはCoReと同様
- 提案モジュールのTSA (Temporal Segmentation Attention) は3つのstepを含む

提案手法
Step 1. Procedure segmentation: t番目のフレームがk番目のsub-actionが切り替わ理
である確率を予測し、Binary Cross Entropyにより損失を定義
お気持ちの(予測)：sub-actionのクラス分類を行いたいわけではない。後段で
sub-action単位でスコアを評価できるようになればいいので、開始フレームのみを
予測している。(新しいactionクラスにも対応できそう )

提案手法
Step 2. Procedure-aware Cross-Attention: sub-actionごとに画像パッチをdecoderに
入力し、exemplerとのMulti-head cross-attentionにより特徴を抽出

提案手法
Step 3. Fine-grained Contrstive Regression: exemplarのスコアに対してregressorに
より得た各sub-actionの差分スコアの平均を加算し、MSE損失を定義

評価指標
Action segmentationの評価指標: 1-dimensional Average IoU （高いほど良い）
AQAの評価指標:
- Spearman’s rank correlation
- スコアを高い順にデータを並び替えた時に
どれだけ正解の並びと一致するかを評価
- 高いほど良い
- Relative l2-distance
- 予測スコアと正解スコアのずれを評価
- スコアのスケールに依存するので相対値を評価
- 低いほど良い

結果
以下の2パターンについて
SOTAを達成
- w/o DN: ランダムに選んだ
データをexemplerに選ぶ
- w/ DN: 同じactionクラスの
データをexemplerに選ぶ

TSA, F+S+R, F+Rの順に性能が良い
Ablation studies
- F: I3D backbone
- S: action segmentation
- R: regressor
- *: asymmetric training strategy (?)
- ♯: action class情報を追加入力
- TSA: F+S+Transformer+R
- ♱: sub-actionの切り替わりフレームに
教師データを使用

Limitations
- Procedureが既知である必要がある（適用可能なケースが限定的）
- 専門家が手動でsub-actionのアノテーションをする必要があり負荷が高い

所感
- Transformer decoderを導入することでAction segmentationの精度も向上してい
て面白い
- マルチタスク学習に似た効果？
- CoReの学習フレームワークが汎用性が高い
- procedureを定義できないケースにも使えそう
- actionクラスの情報は実はexemplarの選定と
regressorへの追加入力にしか使っていない
ため、多少の精度低下を伴うがアノテーション
の負荷が低減できそう
- 解釈性が担保されているかは要調査

まとめ
- actionクラスとsub-actionクラスの2段階のアノテーション情報を含むリッチなデータ
セットFineDivingを提案
- actionクラスを複数種類のsub-actionクラスのシーケンスとみなしてAQAを行うモ
ジュール(Temporal Segmentation Attention)を提案
- SOTAを達成

FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality Assessment (CVPR2022)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality Assessment (CVPR2022)

Similar to FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality Assessment (CVPR2022) (20)

Recently uploaded

Recently uploaded (8)

FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality Assessment (CVPR2022)