論文紹介：Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving

Video Task Decathlon:
Unifying Image and Video Tasks
in Autonomous Driving
Thomas E. Huang, Yifan Liu, Luc Van Gool, Fisher Yu
ICCV2023
水野翼（名工大玉木研）
2023/11/30

概要
n人間の視覚：動的なシーンにおいて複数の異種視覚タスクを実行
• 従来研究：単一，同種，単純な組み合わせのタスクに特化
n本研究：多様な入出力構造に対する統一モデルを構築
• Video Task Decathlon（VTD）を設計
• 代表的な10個の画像・ビデオタスクを含む新しいタスク
• VTDNetの開発
• 10個のタスク全てに単一の構造と
単一の重みセットを使用
• カリキュラム学習，擬似ラベリング，
微調整（CPF）の設計
• 性能劣化の軽減
• ほとんどのタスクで，全体の20%の性能改善

現状の課題
n統一的なアーキテクチャの不足
• 個々のタスクでは印象的な結果[Liu+, ICCV2021]
• 統一的なアーキテクチャは，計算量削減などの利点[Caruana, Machine Learning 1997]
n各タスクに必要な入出力構造や視覚表現の粒度が多様
• ネットワークアーキテクチャは全ての異種タスク予測のサポートが必要
• 洗練された学習戦略が必要
• 全てのタスク・フレームにアノテーションすることは難しい[Yu+, CVPR2020]
n複数タスクの組み合わせに対する大規模な評価プロトコルがない
• 現在のマルチタスクベンチマークは過度に単純化
• 画像タスクのみに基づき，動画でのダイナミクスや関連性を無視[Yuan+, arXiv2021]

関連研究
nMulti-Task Learning（MTL） [Caruana, Machine Learning 1997]
• アーキテクチャ
• Transformer [Vaswani+, NeurIPS2017]ネットワーク
[Ye&Xu, ECCV2022], [Xu+, ECCV2022], [Xu+, AAAI2023], [Ye&Xu, ICLR2023]
• 複数の異種タスクから共通の表現を学習できるモデル
• レイヤ選択ポリシー学習[Sun+, NeurIPS2020]
• どのパラメータを共有・使用できるか
• 擬似ラベリングの利用[Xie+, CVPR2020], [Ghiasi+, ICCV2021], [Kanakis+, WACV2023]
• 最適化
• 各タスクの損失を自動的にバランス[Sener&koltun, NeurIPS2018],
[Chen+, ICML2018], [Kendall+, CVPR2018], [Yu+, NeurIPS2020], [Liu+, ICLR2021]
• タスクの優先順位付け[Guo+, ECCV2018]
• より優れた学習戦略

関連研究
nMulti-Task Benchmarks：MTLデータセット
• 画像分類
• Visual Decathlon Challenge [Rebuffi+, NeurIPS2017]
• 密な予測タスク
• RGBD Images [Silberman+, ECCV2012],
A Novel Context Dataset for PASCAL [Roozben+, CVPR2014],
Cityscapes [Marius+, CVPR2016], Taskonomy [Zamir+, CVPR2018]
• 物体検出・単眼深度測定・Panoptic Segmentationの組み合わせ
• QuadroNet [Goel+, WACV2021], MGNet [Scho ̈n+, ICCV2021]
• 検出・追跡
• KITTI [Geiger+, IJRR2013], nuScenes [Caesar+, CVPR2020],
Waymo Open Dataset [Sun+, CVPR2020]
• 自律走行
• SHIFT [Sun+, CVPR2022], BDD100k [Yu+, CVPR2020]

Video Task Decathlon
n目的
• 単眼ビデオフレーム上の全ての2Dタスクを処理できるモデルの設計の容易化
nタスク
• Image Tagging（G）
• Drivable Area
Segmentation（A）
• Lane Detection（L）
• Semantic（S）/
Instance Segmentation（I）
• Object Detection（D）/ Pose Estimation（P）
• MOT（T）/ MOTS（= MOT & Segmentation）（R）
• Optical Flow Estimation（O）

評価指標
nVTD Accuracy（VTDA）を提案
• メトリックの感度の違いを考慮
• 特定のタスクへのバイアスを低減
n10個のタスクを4つのグループに分割
𝑠：スケーリング

VTDNet
n10個のタスク全てに対し統一された表現を学習
nアーキテクチャ
• Feature Extractor：階層的な特徴を抽出
• Feature Interaction：タスク間で知識を交換
• Decoder：各タスクの最終予測

Feature Extractor
n画像特徴{𝐶2, 𝐶3, 𝐶4, 𝐶5}，画素特徴{𝑃2, 𝑃3, 𝑃4, 𝑃5, 𝑃6} ，インスタンス特徴取得
• Base Network：ストライドを持つ画像特徴を生成
• Multi-scale Feature：Feature Pyramid Network（FPN）[Lin+, CVPR2017]
から画像特徴に基づく特徴ピラミッドを構築し，画素特徴を生成
• Object Feature：Region Proposal Network（RPN）[Ren+, NeurIPS2015]
から各スケールのインスタンス特徴を生成

Feature Interaction
nタスク間の知識共有をさらに強化
• Feature Interactive Block
• Intra-group Interaction Block
• Cross-group Interaction Block
• 入力特徴：𝐹
! ∈ ℝ"×$×%
• 出力特徴：𝐹
!
& ∈ ℝ"×$×'%!

Decoder
ncls
• 画像特徴を操作
• 𝐶5上でグローバル平均プーリングを使用，2つの全結合層を取得
nseg
• 各FPN特徴マップを畳み込みでアップサンプリング，要素ごとの合計で集約
• 各タスクデコーダはそれぞれ畳み込み層で最終出力

Decoder
nloc
• インスタンス特徴からオブジェクトを予測
• 各タスクデコーダは，インスタンス特徴をマッピング[He+, ICCV2017]
nass
• 𝑃2と𝑃3に対するワーピングからのコストボリュームを構築
• 畳み込みを行いフロー予測

実験設定
nOpitimizer
• AdamW [Kingma&Ba, arXiv2014], [Loshchilov&Hutter, ICLR2019]
• 𝛽( = 0.9， 𝛽) = 0.999，重み減衰0.05
nImageNet [Deng+, CVPR2009]で事前学習された重みで初期化
nバッチサイズ：16
nクロップサイズ：720×1280
nエポック数：12
n学習率：1e-5
• 8エポック目と11エポック目では1e-6
n拡張
• マルチスケール学習
• 反転

実験結果
nResNet-50 [He+, CVPR2016]とSwin Transformer [Liu+, ICCV2021]による比較
n単純な合同学習では，マルチタスク全体の性能向上にならない
• ラベル不足，タスク干渉，学習不足によりいくつかのタスクの精度を
著しく損なう
nVTDにおける最適化には，洗練された学習戦略が必要

実験結果
n微調整（CRF）学習プロトコルにより最適化すると，大幅に性能向上
• VTDAでは+3.3の改善

実験結果
nVTDNetはベースラインよりもさらに性能向上
• ほとんどのタスクで最高のスコア
• VTDAでは+7.1の性能向上

実験結果
nVTDNetと他のモデルの比較
n他のタスクからの追加データを活用し，
いくつかのタスクでは性能向上

実験結果
nLane DetectionとPose Estimationでは大きく低下
• タスクの干渉，ラベル不足

実験結果
nMask2Former
• Semantic Segmentation：向上，Instance Segmentation：低下
• 拡張すると，性能低下はあるがSegmentation Taskで競争力のある性能

実験結果
nVTDNet
• 性能低下を緩和，全てのタスクで更なる性能向上を達成
• VTDタスク統一の利点を実証

実験結果
nリソース使用量
• MTとVTDNetはSTに比べ演算量が約80%少ない
• STはタスクごとに個別のFeature Extractorだが，
MT，VTDNetは全タスクで共有
• VTDNetはMTと比べ無視できる計算オーバヘッドで優れた性能を達成
• 各タスクの独立したデコーダ層を，共有されたFeature Interaction Blockに
置き換える

Ablation Study
nVTDNetにおけるIntra-IBとCross-IBの効果
nCPFプロトコルがVTDNetに与える影響
n損失重みとVTDNet，VTDAの関係

Ablation Study
nVTDNetでの定性的な結果

まとめ
nVideo Task Decathlon（VTD）を発表
nVTDには画像と動画に対する10個のタスクが含まれる
• 2次元視覚の統一的な表現を探求
n異種マルチタスクモデルVTDNet
• 特徴相互作用ブロックとCRF学習プロトコルを備える
• シングルタスクモデルよりも高性能

論文紹介：Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving

Recommended

Recommended

More Related Content

Similar to 論文紹介：Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving

Similar to 論文紹介：Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving (20)

More from Toru Tamaki

More from Toru Tamaki (20)

Recently uploaded

Recently uploaded (15)

論文紹介：Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving