SlideShare a Scribd company logo
Evolving Losses for
Unsupervised Video
Representation Learning
2020/10/10 藤井亮宏
1
自己紹介
• 名前︓
Ø 藤井 亮宏(アキヒロ)
• 所属︓
Ø 株式会社 エクサウィザーズ@京都オフィス
• 仕事内容
Ø データ解析
Ø Deep learningとか使って⾊々(画像、時系列、医療
etc…)
@AkiraTOSEIakira_tosei
週次/⽉次で最新論⽂や
機械学習の活⽤事例などを
紹介してます。
(動画像系多め)
書誌情報
´ タイトル
´ Evolving Losses for Unsupervised Video Representation
Learning
´ 著者
´AJ Piergiovanni, Anelia Angelova, Michael S. Ryoo
´ 所属機関
´ Google
´ 投稿⽇
´ 2020/02/27
3
本⽇紹介する論⽂のまとめ
´ 動画だけでなく、⾳声などの⾊々なドメインのデータを活⽤
´ 動画/⾳声などを活⽤するマルチタスク/マルチモーダルの教師なし表現学習
機構を提案
´ それを使って、教師なしの事前学習をすると⾏動検知タスクにおいて⾼い
精度が出る
4
⾏動検知って何︖
´ 動画から⾏動ラベルを予測するタスク
5
⾏動ラベル︓
“Tennis”
https://www.youtube.com/watch?v=je4
dDu8e6e4&feature=emb_logo
ラベル付って簡単︖
´ ラベル付は難しく、専⾨的な知識も必要
6
この⿃は何︖
1.ハクトウワシ
2.オオワシ
3.イヌワシ
4.オジロワシ
ラベル付って簡単︖
´ ラベル付は難しく、専⾨的な知識も必要
7
この⿃は何︖
1.ハクトウワシ
2.オオワシ
3.イヌワシ
4.オジロワシ
ラベル付って簡単︖
´ 動画の場合は、時間的な区切りも判断しないといけないので、さらに⾼コ
スト。
8
ここからここまで
動画以外は︖
´ ⼈間は動画以外の情報、例えば⾳声、も判断材料にしている。
9
今⽇紹介する論⽂のコンセプト
´ 動画情報だけでなく⾳声などの情報も活⽤した教師なし表現学習フレーム
ワークを提案
´ 動画と⾳声などの付加情報の相互作⽤で良い効果を得たい
´ ラベル付は⾼コストなので、ラベルなしデータを活⽤すること
で⼤量のデータで事前学習させたい
10
問題設定
´ やりたいこと
´ 動画のよい表現(埋め込みベクトル)を得たい
´ ⾳声なども活⽤して動画(RGB x Time)処理するネットワークの性能を向上させる
(あくまで⽬標は⾼性能なRGB動画処理ネットワーク)
´ 使うデータ
´ 動画だけでなく、それに紐づく⾳声、Optical-Flowなど
´ ただしラベルなし
11
疑問
12
⾊々なドメインのデータ
をどう活⽤するの︖
マルチタスク/マルチモーダル+蒸留で、相乗効果による性能向上を狙う
´ 異なるデータ(モーダル)を別々のネットワークで処理しつつ、蒸留を使うこ
とでネットワークの相関を⾼める。
´ 複数の共有タスクを解く
13
タスクとモーダルの例
14
´ RGB動画と⾳声2つのモーダルを使って、「⾳声の順序が正しいか」を予
測するタスク
各モーダル、各タスクごとに
個別に損失をもっている。
タスクとモーダルの⼀覧
15
4つのモーダル、4つのタスクを使っている
• RGB動画
• Gray scale 動画
• ⾳声
• Optical Flow
• 再構成タスク
簡易なデコーダーをつけて⼊⼒を再現する。モーダル
内部だけでなく、Flow→RGBのようなモーダル横断の
ものも実施する。
• 時系列順序タスク
「動画フレームがシャッフルされているか」「時間が
順⽅向か逆⽅向か」の2値分類の2タスク
• 対照学習
異なるモーダルから得られた表現で、同じビデオなら
距離を近づけ、異なるなら遠ざける
• モーダルの時系列整理
2つの異なるモーダルが同じ時系列順になっているか
×
蒸留
´ RGBを処理するモーダルと各モーダルを処理するネットワークの活性の距
離を⼩さくすることで、他のモーダルの表現抽出⽅法をRGBモーダルに移
⾏する。
16
Audioから得られる表現抽出⽅法を、
RGBに移⾏する
2つのモーダルの層iにおける活性を
近くする“蒸留”
マルチタスク/マルチモーダル+蒸留で、相乗効果による性能向上を狙う
17
マルチタスクと蒸留の損失を最⼩化する
複数のデータ(モーダル)で、複数のタスクを解かせる
疑問
18
どのモーダルの、どのタ
スクが重要かってどう決
めるの︖
答え.
´ 得られた表現がZipf 分布に従うように、進化アルゴで損失関数の係数(重要
度)を探索する。
19
得られた表現をk-means
クラスタリングしたもの
Zipf分布
k番⽬に多いカテゴリの数が最⼤
のものの1/kに⽐例する分布。経
験的に⾊々なものに当てはまる。
2つの分布が合うよ
うに係数をパラ
メータ探索する
詳細な実現⽅法
´ 各クラスターをクラスター核を中⼼とするガウス分布と⾒做し、それをZipf
分布のKL距離を最⼩化するように、進化アルゴでパラメータ探索する。
20
p : 得られた表現の分布 q : Zipf分布
各クラスターをクラスター核を
中⼼とするガウス分布と⾒做す。
k番⽬に多いカテゴリの数が最⼤のもの
の1/kに⽐例する分布
⼿法をまとめると…
´ マルチタスク/マルチモーダルで蒸留を使って相互作⽤させながら学習する
´ 得られた表現がZipf分布に従うように損失の重みλm,tを探索する
21
λm,tの進化アルゴによる最適化の様⼦
ネットワークの全体図
マルチタスク/マルチモーダル 蒸留
教師なしの事前学習の⽅法と⽬標タスク
´ Youtube-8Mの⼀部を使って事前学習し、kineticなどの⾏動検知タスクで
検証する。
22
事前学習
• 610万のビデオがあり、1000カテゴ
リをもつのデータセット
• Youtube-8Mのうち200万のビデオ
を使⽤
• ラベルは使わない
⾏動検知
• Kinetics
• UCF101
• HMDB
得られた表現ベクトルの検証
´ 同じ⾏動検知タスクで事前学習(教師あり)したものには及ばないが⾼精度
´ ImageNet事前学習や、同じ教師なし設定の先⾏研究より良い
´ 損失の重みの最適化は重要
23
※進化アルゴで係数を最適化しない⽔準
※進化アルゴで係数を最適化した⽔準提案⼿法
HMDB51における検証結果
Fine-Tuneした結果
´ 同じ⾏動検知タスクで事前学習(教師あり)したものには及ばないが⾼精度
´ 蒸留によって相乗効果を⽣む⼿法は重要
24
※蒸留をしない⽔準
※蒸留を⼊れた⽔準提案⼿法
Fine-tune時に必要なデータの検証
´ 事前学習した場合、Fine-Tune⽤のデータが少なくてもそこそこ精度が出る。
´ 全てのデータを使うと、教師ありで学習した精度を超える
25
kineticsデータでの検証結果
事前学習に使うデータ数と精度の関係
´ 事前学習に使うデータが多くなるほど精度が向上する
´ まだデータを増やせば精度が伸びるかも
26
epoch数を固定学習step数を固定
※データが増えるほど総ステップ数は増える
本⽇紹介する論⽂のまとめ
´ 動画だけでなく、⾳声などの⾊々なドメインのデータを活⽤
´ 動画/⾳声などを活⽤するマルチタスク/マルチモーダルの教師なし表現学習
機構を提案
´ それを使って、教師なしの事前学習をすると⾏動検知タスクにおいて⾼い
精度が出る
27

More Related Content

More from 亮宏 藤井

A Novel Cascade Binary Tagging Framework for Relational Triple Extraction
A Novel Cascade Binary Tagging Framework for Relational Triple ExtractionA Novel Cascade Binary Tagging Framework for Relational Triple Extraction
A Novel Cascade Binary Tagging Framework for Relational Triple Extraction
亮宏 藤井
 
2020 0906 acl_2020_reading_shared
2020 0906 acl_2020_reading_shared2020 0906 acl_2020_reading_shared
2020 0906 acl_2020_reading_shared
亮宏 藤井
 
200704 revisiting knowledge distillation via label smoothing regularization
200704 revisiting knowledge distillation via label smoothing regularization 200704 revisiting knowledge distillation via label smoothing regularization
200704 revisiting knowledge distillation via label smoothing regularization
亮宏 藤井
 
MIXUPは最終層でやった方がいいんじゃないか説
MIXUPは最終層でやった方がいいんじゃないか説MIXUPは最終層でやった方がいいんじゃないか説
MIXUPは最終層でやった方がいいんじゃないか説
亮宏 藤井
 
190410 sc fegan-face_editing_generative_adversarial_network_with_users_sketch...
190410 sc fegan-face_editing_generative_adversarial_network_with_users_sketch...190410 sc fegan-face_editing_generative_adversarial_network_with_users_sketch...
190410 sc fegan-face_editing_generative_adversarial_network_with_users_sketch...
亮宏 藤井
 
190602 benchmarking neural network robustness to common corruptions and pertu...
190602 benchmarking neural network robustness to common corruptions and pertu...190602 benchmarking neural network robustness to common corruptions and pertu...
190602 benchmarking neural network robustness to common corruptions and pertu...
亮宏 藤井
 
190602 what does_cnn_see
190602 what does_cnn_see190602 what does_cnn_see
190602 what does_cnn_see
亮宏 藤井
 
190112 kdgan knowledge distillation with generative adversarial networks
190112 kdgan  knowledge distillation with generative adversarial networks190112 kdgan  knowledge distillation with generative adversarial networks
190112 kdgan knowledge distillation with generative adversarial networks
亮宏 藤井
 
Kdgan knowledge distillation with generative adversarial networks
Kdgan  knowledge distillation with generative adversarial networksKdgan  knowledge distillation with generative adversarial networks
Kdgan knowledge distillation with generative adversarial networks
亮宏 藤井
 

More from 亮宏 藤井 (9)

A Novel Cascade Binary Tagging Framework for Relational Triple Extraction
A Novel Cascade Binary Tagging Framework for Relational Triple ExtractionA Novel Cascade Binary Tagging Framework for Relational Triple Extraction
A Novel Cascade Binary Tagging Framework for Relational Triple Extraction
 
2020 0906 acl_2020_reading_shared
2020 0906 acl_2020_reading_shared2020 0906 acl_2020_reading_shared
2020 0906 acl_2020_reading_shared
 
200704 revisiting knowledge distillation via label smoothing regularization
200704 revisiting knowledge distillation via label smoothing regularization 200704 revisiting knowledge distillation via label smoothing regularization
200704 revisiting knowledge distillation via label smoothing regularization
 
MIXUPは最終層でやった方がいいんじゃないか説
MIXUPは最終層でやった方がいいんじゃないか説MIXUPは最終層でやった方がいいんじゃないか説
MIXUPは最終層でやった方がいいんじゃないか説
 
190410 sc fegan-face_editing_generative_adversarial_network_with_users_sketch...
190410 sc fegan-face_editing_generative_adversarial_network_with_users_sketch...190410 sc fegan-face_editing_generative_adversarial_network_with_users_sketch...
190410 sc fegan-face_editing_generative_adversarial_network_with_users_sketch...
 
190602 benchmarking neural network robustness to common corruptions and pertu...
190602 benchmarking neural network robustness to common corruptions and pertu...190602 benchmarking neural network robustness to common corruptions and pertu...
190602 benchmarking neural network robustness to common corruptions and pertu...
 
190602 what does_cnn_see
190602 what does_cnn_see190602 what does_cnn_see
190602 what does_cnn_see
 
190112 kdgan knowledge distillation with generative adversarial networks
190112 kdgan  knowledge distillation with generative adversarial networks190112 kdgan  knowledge distillation with generative adversarial networks
190112 kdgan knowledge distillation with generative adversarial networks
 
Kdgan knowledge distillation with generative adversarial networks
Kdgan  knowledge distillation with generative adversarial networksKdgan  knowledge distillation with generative adversarial networks
Kdgan knowledge distillation with generative adversarial networks
 

201010 evolving losses_for_unsupervised_video_representation_learning