【CVPR 2020 メタサーベイ】Vision & Other Modalities

CVPR 2020の動向・気付き・メタサーベイ  
1
- 今回どんな研究が流行っていた？ 
- 海外の研究者は何をしている？ 
- どんな研究グループが強いか？ 
- その他「動向」や「気付き」など何でもOK 
Group 27: Vision & Other Modalities
升山義紀, 後藤啓太, 町井湧介

2
本資料の概要 
カバー範囲 
– Multi-modal学習全般に使える技術のCVPR2020での発展 
– CVPR2020におけるRGB画像+赤外線画像での人物再照合 
– CVPR2020におけるAudio-visual学習 
– 注目研究者+組織（Audio-visual学習中心） 
 
– Vision&Languageは別途グループが存在するので対象外

3
GeneralなMulti-Modal手法の動向1 
CVPR2020では、実世界で多く存在すると考えられる不完全なマル
チモーダルデータに対する適応手法や、各モダリティの情報を統
合、学習する際の工夫が多くみられた 
 
・敵対的学習による潜在特徴量の学習の強化  
・Modality間の学習進度の差を考慮した学習手法  
・Cross Modal 蒸留とMeta Learningの融合 
・Fusion手法の工夫

4
敵対的学習による潜在特徴量の学習の強化 
– 各モダリティの特徴量を上手く共通の特徴量空間に落とすため
に、敵対的学習機構を設けている手法 
• 動画&音声や動画&Optical Flow のように 
同時に入手できるものは対応しているという 
情報が使える 
 
[Munro,CVPR2020,http://xpaperchallenge.org/cv/survey/cvpr2020_summaries/644/]
[Zhou,CVPR2020,
http://xpaperchallenge.org/cv/survey/cvpr2020_summaries/139/]

5
Modality間の学習進度の差を考慮した学習手法 
– マルチモーダルモデルは各モダリティごとに学習の進み方が異
なるため、Overfitしやすいという問題を指摘 
– Overfit度合いを表す指標(OGR)を提案し、それを用いてモダリ
ティ毎に損失の重みを最適化しOverfitを抑制 
[Wang,CVPR2020,http://xpaperchallenge.org/cv/survey/cvpr2020_summaries/61/]

6
Cross Modal 蒸留とMeta Learningの融合 
– 従来法はあるモダリティの学習済みモデルを別モダリティのモデ
ルへ蒸留（ペアデータが必要） 
– ターゲットドメインでは一方のモダリティの情報しか手に入らない
ことを考え，ソースドメインでの知識に基きメタラ－ニングする枠
組みを提案 
[Zhao,CVPR2020,http://xpaperchall
enge.org/cv/survey/cvpr2020_su
mmaries/285/]
● ターゲットドメインでの生徒モデ
ル学習に対して，ソースドメイン
での知識蒸留の際の勾配に基づ
いたPriorを導入
● 具体的にはパラメトリックな
weight decayとして定式化

7
Fusion手法の工夫 
– 複数モダリティの中間特徴を Fusion する手法の工夫 
• モダリティ毎の特徴を統合する手法として、 
early fusion / late fusionがよく用いられる 
• この手法では中間特徴も統合 
[Iuzzolino+,CVPR2020, http://xpaper
challenge.org/cv/survey/cvpr2020_s
ummaries/51/]

RGB & IR 画像を用いた人物再照合の動向 
8
赤外線(IR)画像なら夜間でも利用可能 
– テスト時のモダリティに対応（RGBでもIRでも認識可能） 
– 再生成による”Disentanglement”→個人性を分離 
• 異なるモダリティを教師信号として利用できる 
[Lu+,CVPR2020,http://xpaperchallenge.org
/cv/survey/cvpr2020_summaries/86/]   [Choi+,CVPR2020,http://xpaperchallenge.org/cv
/survey/cvpr2020_summaries/709/]

9
Audio-visual Laerning の動向１ 
• 既存のタスク+αが多数 
– Learning to Have an Ear for Face Super-Resolution 
• 顔画像の高解像度化に音声の情報を利用（音声から顔　画
像を生成するSpeech2Face系の拡張） 
– Speech2Action: Cross-Modal Supervision for Action
Recognition 
• 映画の台詞と行動の関係に基づいた行動認識のための　弱
教師あり学習 
– Listen to Look: Action Recognition by Previewing Audio 
• 行動認識において音を利用してビデオから代表点抽出

10
Audio-visual Laerning の動向２ 
各モダリティにおける学習済みDNNの有効活用 
– Visual Grounding in Video for Unsupervised Word Translation 
• 画像に基づく教師なし機械翻訳の学習データを，各言語での
インストラクションビデオにASRを適用し作成 
– Music Gesture for Visual Sound Separation  
● OpenPoseでキーポイント抽
出しAV音源分離に利用
● 動画と音の時系列の対応　
関係を活用した身体の動きに
関連する研究が多数
[Gan+,CVPR2020,http://xpaperchallenge.org/c
v/survey/cvpr2020_summaries/214]

11
Audio-visual Laerning の動向３ 
• 対応関係を利用した自己教師あり学習の多様化 
– Telling Left from Right: Learning Spatial Correspondence of
Sight and Sound  
• 従来法は音源物体の種類や動き（時系列情報）から学習 
• 提案法はバイノーラル音源を利用し空間情報から学習 
  ● 音の左右が入れ替わって
いるか判別できるように特
徴抽出DNNsを学習
[Yang+,CVPR2020,http://xpaperchallenge.org/
cv/survey/cvpr2020_summaries/159/]

David Harwath 
12
Multi-modal SSLを先導（Speech寄り） 
– Sight and Sound Workshopで講演 
– MIT CSAILでPh.D，現在は同Reserach Scientist 
– Spoken languageとvisualのcross-modalに早くから着手
(ASRU2015) 
 
– 代表的な論文 
  • Deep Multimodal Semantic Embeddings for
Speech and Images (ASRU 2015)
• Unsupervised Learning of Spoken Language with
Visual Context (NIPS 2016)
• Jointly discovering visual objects and spoken
words from raw sensory input (ECCV 2018)
• Learning Hierarchical Discrete Linguistic Units from
Visually-Grounded Speech (ICLR 2019)
https://people.csail.mit.edu/
dharwath/

Andrew Owens 
13
Multi-modal SSLを先導（Vision寄り） 
– Sight and Sound Workshopのオーガナイザ 
– MIT CSAILでPh.D，現在はミシガン大学EECS学科助教 
– 博士論文は Learning Visual Models from Paired
Audio-Visual Examples 
 
  • Visually Indicated Sounds (CVPR 2016) 
• Ambient Sound Provides Supervision for Visual
Learning (ECCV 2016) 
• Audio-visual scene analysis with self- supervised
multisensory features 
(ECCV 2018) 
• Learning individual styles of conversational gesture
(CVPR2019)  http://andrewowens.com/

Kristen Grauman 
14
Audio-Visual統合の研究を先導 
– Sight and Sound Workshopのオーガナイザ 
– MIT CSAILでPh.D 
– 現在はテキサス大学オースティン校の教授とFAIRのResearch
Scientistを兼任 
– CVPR2020共著6件（うち4件オーラル） 
 
 
• Learning to separate object sounds by
watching unlabeled video (ECCV 2018)
• 2.5D visual sound (CVPR 2019)
• Co-Separating sounds of visual objects (ICCV
2019)
• Listen to look: action recognition by
previewing audio (CVPR 2020)  http://www.cs.utexas.edu/users/grauman/

FAIR (Facebook AI Research) 
15
大規模データセットを使ったMulti-modal SSL 
– Instagramの膨大なMulti-modalデータを利用 
– 大学との兼任で強い研究者多数 
• Kristen Grauman: UT Austinとの兼任（先述） 
• Andrea Vedaldi: VGG（後述）との兼任 
• Lorenzo Torresani: Dartmouth Collegeとの兼任 
 
[Alwassel+, 2019, https://arxiv.org/abs/1911.12667]
[Patrick+, 2020,
https://arxiv.org/abs/2003.04298]

VGG (Visual Geometry Group) 
16
Oxford大学のCVにおける一大研究室 
– 主催のAndrew Zisserman氏はSight and Sound Workshop
のオーガナイザ
– VoxCeleb， VGGSoundなどAudio-visualのデータセットを多数
公開
– Audio-visualでの代表的な論文
 
 
• The Conversation: Deep Audio-Visual Speech
Enhancement (ECCV 2018)
• Learnable PINS: Cross-Modal Embeddings for
Person Identity (ECCV 2018)
• Deep audio-visual speech recognition
(TPAMI2018)
• Speech2Action: Cross-Modal Supervision
for Action Recognition (CVPR 2020) ttp://www.robots.ox.ac.uk/~az/

【CVPR 2020 メタサーベイ】Vision & Other Modalities

Recommended

Recommended

More Related Content

What's hot

What's hot (15)

Similar to 【CVPR 2020 メタサーベイ】Vision & Other Modalities

Similar to 【CVPR 2020 メタサーベイ】Vision & Other Modalities (20)

Recently uploaded

Recently uploaded (16)

【CVPR 2020 メタサーベイ】Vision & Other Modalities