Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Do Better ImageNet Models Transfer Better?
(CVPR 2019 Oral)
Simon Kornblith, Jonathon Shlens, Quoc V. Le
(Google Brain)
1
...
論⽂の要点
2
– ImageNetで⾼精度を記録したモデルは転移学習
(Transfer Learning)を⾏なっても⾼精度か?
– 16構造 x 12データセットを学習,{ロジスティック回帰,
ファインチューン, スクラッチ}により転移学...
本研究に⾄るまでの経緯(1/2)
3
• 画像識別における転移学習は有効
– 深層学習における転移学習の例(下図)
– 特にImageNet等の⼤規模DBの事前学習モデルは転移学習
の精度に対する期待が⾼い
Conv
Conv
Pool
Con...
本研究に⾄るまでの経緯(2/2)
4
• 深層学習時代の転移学習動向
– 活性化特徴として畳み込み特徴を転⽤(DeCAF; 左図)
– 事前学習モデルの転移学習について調査(右図)
深層学習のアーキテクチャと転移学習の関係性は重要
と位置付けて...
調査内容
5
• 16構造 x 12データセットに対して転移学習
– 16構造
• Inception v1, BN-Inception, Inception v3, Inception v4,
Inception-ResNet v2, Res...
調査内容
6
• 転移学習先/ImageNetの精度を対応
– 横軸はImageNet top-1の精度
– 縦軸は転移学習先の精度(評価値はデータセットにより異なる)
– 軸はLogitでスケーリング(数式右下)
– {ロジスティック回帰, ...
実験結果
7
• @ロジスティック回帰
– ImageNetの事前学習あり
– 相関値rは0.99
実験結果
8
• @ファインチューン
– ImageNetの事前学習あり
– 相関値rは0.96
実験結果
9
• @スクラッチ
– ImageNetの事前学習なし
– 相関値rは0.55
学習設定による精度の違い@ロジスティック回帰
10
• 左側がInception寄り,右側がResNet寄りの設定
– BatchNorm., Label Smoothing, Dropout, Auxiliary
Heads(メインの実験では...
学習設定による精度の違い@ファインチューン
11
• 左側がInception寄り,右側がResNet寄りの設定
– BatchNorm., Label Smoothing, Dropout, Auxiliary
Heads(メインの実験では公...
精度⽐較
12
• 各データセットにおいて下記を⽐較
– ロジスティック回帰(緑)
– ファインチューン(オレンジ)
– スクラッチ(紫)
精度的にはファインチューンが良くなりやすいが
データセットによってはロジスティック回帰と同等になる
スクラッチとファインチューンの関係性
13
• アーキテクチャによる精度推定
– 横軸はスクラッチ学習,縦軸はファインチューンの精度
– 使⽤するアーキテクチャで精度に対する⼤体の期待値が
わかる?
収束の早さ
14
• ImageNet 事前学習 あり vs. なし
– 事前学習ありの⽅が収束までが早い
– 最初の精度も⾼い
詳細画像タスクへの転移学習
15
• 詳細画像認識(Fine-grained Image Recognition)に対しては
ImageNet事前学習の効果は少ない
– スクラッチはロジスティック回帰よりも⾼い
• ImageNet事前学習は詳...
ディスカッション
16
• CVのコミュニティはImageNetに特化しすぎてる?
– NO!
– ImageNetにて⾼精度なモデルは転移学習に対し⾼相関
– 多くのデータセットに対して収束を早め,精度を⾼くす
る(しかし,詳細画像認識タスク...
補⾜:Google at CVPR 2019
17
• https://ai.googleblog.com/2019/06/google-at-
cvpr-2019.html
Upcoming SlideShare
Loading in …5
×

【CVPR 2019】Do Better ImageNet Models Transfer Better?

496 views

Published on

cvpaper.challenge はコンピュータビジョン分野の今を映し、トレンドを創り出す挑戦です。論文読破・まとめ・アイディア考案・議論・実装・論文投稿に取り組み、あらゆる知識を共有しています。
http://xpaperchallenge.org/cv/

本資料は、CVPR 2019 網羅的サーベイの成果の一部で、1論文を精読してプレゼンテーション形式でまとめております。論文サマリは下記からご確認頂けます。
http://xpaperchallenge.org/cv/survey/cvpr2019_summaries/listall/

Published in: Technology
  • Be the first to comment

【CVPR 2019】Do Better ImageNet Models Transfer Better?

  1. 1. Do Better ImageNet Models Transfer Better? (CVPR 2019 Oral) Simon Kornblith, Jonathon Shlens, Quoc V. Le (Google Brain) 1 http://xpaperchallenge.org/cv/ 資料作成:⽚岡 裕雄
  2. 2. 論⽂の要点 2 – ImageNetで⾼精度を記録したモデルは転移学習 (Transfer Learning)を⾏なっても⾼精度か? – 16構造 x 12データセットを学習,{ロジスティック回帰, ファインチューン, スクラッチ}により転移学習の検証 • ロジスティック回帰,ファインチューンはImageNet事前学習あ り,スクラッチはランダムパラメータからの学習でImageNet事 前学習なし – 結果として,ImageNetで⾼精度なモデルは転移学習を⾏ なっても⾼精度であることが判明
  3. 3. 本研究に⾄るまでの経緯(1/2) 3 • 画像識別における転移学習は有効 – 深層学習における転移学習の例(下図) – 特にImageNet等の⼤規模DBの事前学習モデルは転移学習 の精度に対する期待が⾼い Conv Conv Pool Conv Conv Conv Pool Conv Conv Conv Pool Conv Conv Pool Conv Conv Pool Conv g (i; w ) DB (Pre-train) FC FC Output1 画像 i を⼊⼒して出⼒を得る 関数 g,wによりparametrize Pre-trained Model DB (Fine-tuning) Output2Pre-trained Model 1) Pre-train; 通常は⼤規模データにより学習 2) Fine-tuning; 通常はタスクに応じてパラメータを適応 転移学習 (Transfer Learning)? 1)の事前学習モデルを2)他のタスクに向けて 追加(転移)学習させることから 図は下記を参照 https://www.slideshare.net/cvpaperchallenge/eccv-2018exploring-the-limits-of-weakly-supervised-pretraining
  4. 4. 本研究に⾄るまでの経緯(2/2) 4 • 深層学習時代の転移学習動向 – 活性化特徴として畳み込み特徴を転⽤(DeCAF; 左図) – 事前学習モデルの転移学習について調査(右図) 深層学習のアーキテクチャと転移学習の関係性は重要 と位置付けて本研究を実施 [33] Mi-Young Huh, Pulkit Agrawal, and Alexei A. Efros. What makes ImageNet good for transfer learning? CoRR, abs/1608.08614, 2016. [⽂献にはなし] Jeff Donahue, et al. DeCAF: A Deep Convolutional Activation Featurefor Generic Visual Recognition, in ICML, 2014.
  5. 5. 調査内容 5 • 16構造 x 12データセットに対して転移学習 – 16構造 • Inception v1, BN-Inception, Inception v3, Inception v4, Inception-ResNet v2, ResNet-50, ResNet-101, ResNet-152, DenseNet-121, DenseNet-169, DenseNet-201, MobileNet v1, MobileNet v2, MobileNet v2 (1.4x), NASNet-A, Mobile, NASNet-A Large – 12データセット
  6. 6. 調査内容 6 • 転移学習先/ImageNetの精度を対応 – 横軸はImageNet top-1の精度 – 縦軸は転移学習先の精度(評価値はデータセットにより異なる) – 軸はLogitでスケーリング(数式右下) – {ロジスティック回帰, ファインチューン, スクラッチ} • ロジスティック回帰,ファインチューンはImageNet事前学習あり • ロジスティック回帰はImageNetの特徴量は固定で識別部分のみ を学習 • スクラッチはランダムから学習,ImageNet事前学習なし
  7. 7. 実験結果 7 • @ロジスティック回帰 – ImageNetの事前学習あり – 相関値rは0.99
  8. 8. 実験結果 8 • @ファインチューン – ImageNetの事前学習あり – 相関値rは0.96
  9. 9. 実験結果 9 • @スクラッチ – ImageNetの事前学習なし – 相関値rは0.55
  10. 10. 学習設定による精度の違い@ロジスティック回帰 10 • 左側がInception寄り,右側がResNet寄りの設定 – BatchNorm., Label Smoothing, Dropout, Auxiliary Heads(メインの実験では公平性のため⼊れていないがここでは追加して実験) – 右に⾏くほど精度向上,ResNetの効果が最⼤ Inception v4について,事前学習し た後の状態(左)とOxford 102デー タセットに対して汎化させた状態 (右)。テストセットから10カテゴ リを取得して可視化している。
  11. 11. 学習設定による精度の違い@ファインチューン 11 • 左側がInception寄り,右側がResNet寄りの設定 – BatchNorm., Label Smoothing, Dropout, Auxiliary Heads(メインの実験では公平性のため⼊れていないがここでは追加して実験) – Dropout/Auxiliary Headsが効いている
  12. 12. 精度⽐較 12 • 各データセットにおいて下記を⽐較 – ロジスティック回帰(緑) – ファインチューン(オレンジ) – スクラッチ(紫) 精度的にはファインチューンが良くなりやすいが データセットによってはロジスティック回帰と同等になる
  13. 13. スクラッチとファインチューンの関係性 13 • アーキテクチャによる精度推定 – 横軸はスクラッチ学習,縦軸はファインチューンの精度 – 使⽤するアーキテクチャで精度に対する⼤体の期待値が わかる?
  14. 14. 収束の早さ 14 • ImageNet 事前学習 あり vs. なし – 事前学習ありの⽅が収束までが早い – 最初の精度も⾼い
  15. 15. 詳細画像タスクへの転移学習 15 • 詳細画像認識(Fine-grained Image Recognition)に対しては ImageNet事前学習の効果は少ない – スクラッチはロジスティック回帰よりも⾼い • ImageNet事前学習は詳細画像認識タスクには向かない – スクラッチはファインチューンに近い精度まで到達 • より難しいタスクに対してはチューニングした⽅が良い ロジスティック回帰(緑) ファインチューン(オレンジ) スクラッチ(紫)
  16. 16. ディスカッション 16 • CVのコミュニティはImageNetに特化しすぎてる? – NO! – ImageNetにて⾼精度なモデルは転移学習に対し⾼相関 – 多くのデータセットに対して収束を早め,精度を⾼くす る(しかし,詳細画像認識タスクについては効果が低い) – ⾃然画像認識のタスクについてImageNetは有効であり識 別を始めるための良好なオプション
  17. 17. 補⾜:Google at CVPR 2019 17 • https://ai.googleblog.com/2019/06/google-at- cvpr-2019.html

×