SlideShare a Scribd company logo
1 of 11
Download to read offline
CVPR 2020の動向・気付き・メタサーベイ 

1
Group 21.2 Survey Members

Group 21.2: Recognition (Detection, Categorization)
2
Detectionの傾向

• 問題設定や学習方式など、広がりが見える

– 問題設定

• 3D(時系列または三次元空間)

• NAS(Neural Architecture Search)

• 条件がつかない「一般物体検出の論文」は少ない

– EfficientDetやSaccadeNetなどPoster採択はあり

– Instance Segmentationでは、いくつか論文も

– 学習方式

• Long-Tailな不均衡データセットに対する学習

• Few-Shot学習/弱教師あり学習

3
Categorizationの傾向

• Detectionと同様に、広がりが見える

– 問題設定

• データや特徴空間の変換

• アテンション機構

• エッジ/モバイルを前提としたCNNの高速な推論

– 学習方式

• Few-Shot学習/弱教師あり学習

• 自己教師あり学習/教師なし学習

• オンライン学習(インクリメンタルな追加学習)

• Knowledge Distillation

4
Person Re-Identification/Person Search

• CVPR 2020で、多数が中国の組織からの論文

– Person Re-Identification: 複数カメラに映った人物を識別

• 題名に含む論文21本のうち17本が、中国の組織を含む

– Person Search: 同一人物を、複数カメラの映像から検索

• 題名に含む論文6本の全てが、中国の組織から

– 組織的・非組織的な要因による、複合要因と推測

• 組織的な要因

– 国家的な方策と合致し、研究資金を獲得しやすい

– 研究資金があれば、必要なデータセットも作成可能

• 非組織的な要因

– CNNの特徴抽出の応用研究として、課題が幅広い

5
論文全般の傾向

• 当然ではあるが、全体が整った論文が多い

– 既存の課題設定

• やはりSOTAを出していることは強い

• SOTAでない場合、Ablation Studyや補足実験

– 新たな課題設定

• 既存のCV課題に対し、何らかのアレンジ

• 自分でデータセットを作っている場合も多い

– コスト(費用・期間)が発生するが、データは必要

– その他、読みやすさに対する工夫

• Figure 1とAbstract(次頁)

6
Figure 1とAbstract

• CVPRでは、Figure 1で「印象を残す」傾向

– 査読者は多忙で、かつ専門が近い論文の査読とは限らない

• 査読者は得意分野でなくても、読まなければならない

• 「読みにくい」だけで、心証を損なう可能性が高い

– 査読者ではない読者にも「読みやすさ」は重要

⇒ Figure 1とAbstractで、第一印象を判断される



– Figure 1で印象を残すため、大きく分けると以下の傾向

• 提案手法の要点をアピール

• 課題解決の特色をアピール

7
Figure 1の例

• 本文が読まれるように、論文の意図をアピール

– 「提案手法の要点をアピール」の例

• Unsupervised Person Re-Identification

via Multi-Label Classification

– CVPR 2020で、Oral採択

– 教師なし学習による人物再同定

– Figure 1で、提案手法の枠組みを図解

– 「課題解決の特色をアピール」の例

• ABCNet: Real-time Scene Text Spotting

with Adaptive Bezier-Curve Network

– CVPR 2020で、Oral採択

– テキスト領域が、曲がっていても検出

– Figure 1で、曲がったテキストに対し

検出結果をセグメンテーションと比較

一番上の例は、京都の居酒屋の看板
8
ABCNet

• ベジェ曲線を用いて、曲がったテキストも検出

– CNN-RNNで、Bounding Boxごとに頂点8個を回帰で検出

– 頂点4個ずつを、ベジェ曲線の制御点として曲線2本を描画

• 着想が面白く、前述のFigure 1が見栄えして映る

• ていねいな説明で、書き方などの参考になりそう

• データセットも独自に作成 → 大変だけど必要ではないか

– オーストラリアのアデレード大学(次頁)を中心とした論文

9
Adelaide Intelligent Machines Group

• University of Adelaideの研究グループ

– アデレード大学は、オーストラリアの公立大学

– Chunhua Shen教授が中心的な人物の模様

• FCOS (ICCV 2019採択)

• CVPR 2020では、前述のABCNetを含め12本の論文

• ECCV 2020にも、11本の論文が採択されている模様

– GitHubで、Detectron2ベースの実装「AdelaiDet」を公開

• https://github.com/aim-uofa/AdelaiDet

• FCOSに加え、BlendMaskやABCNetなどの実装も

10
GPU事情

• 組織によって使用できるGPUリソースは違う

– 一部の企業は、潤沢なリソースを保有

• 国外: Google/DeepMind、Facebook AI、NVIDIA

• 国内: Preferred Networks

– 上記以外の組織は、千差万別の模様

• CVPR 2020では、1080Ti×2枚が戦える最低ラインか

• Abstractで「1080Tiで動く」とアピールする論文も

• 「V100×4で実験した」とある大学からの論文も多い

• Tiny ImageNetなどでリソースを節約している論文も

– 非CNNの論文ではCPUのみの実験も見られたが、例外的

11
その他の気付き事項

• 論文の誤記などは少ないが、ないこともない

– ある論文に「we design ~」の脱字と思われる「deign」

• deignも動詞なので、スペルチェックは通った模様

• スペルチェックだけでなく、内容のチェックも大切

– Supplementary Materialが、CVPR公式で読めない論文も

• 本文で言及されているにもかかわらず、存在しない

• ほとんどの論文はarXivにもあるため、そちらも確認


More Related Content

Similar to 【CVPR 2020 メタサーベイ】Recognition (Detection, Categorization)_Group21.2

NIPS2019 Amazon「think globally, act locally : a deep neural network approach...
NIPS2019  Amazon「think globally, act locally : a deep neural network approach...NIPS2019  Amazon「think globally, act locally : a deep neural network approach...
NIPS2019 Amazon「think globally, act locally : a deep neural network approach...SaeruYamamuro
 
Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Preferred Networks
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for PredictionDeep Learning JP
 
人工知能10 サポートベクトルマシン
人工知能10 サポートベクトルマシン人工知能10 サポートベクトルマシン
人工知能10 サポートベクトルマシンHirotaka Hachiya
 
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...MasanoriSuganuma
 
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKSDeep Learning JP
 
文献紹介:EfficientDet: Scalable and Efficient Object Detection
文献紹介:EfficientDet: Scalable and Efficient Object Detection文献紹介:EfficientDet: Scalable and Efficient Object Detection
文献紹介:EfficientDet: Scalable and Efficient Object DetectionToru Tamaki
 
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...MasanoriSuganuma
 
Clustering of time series subsequences is meaningless 解説
Clustering of time series subsequences is meaningless 解説Clustering of time series subsequences is meaningless 解説
Clustering of time series subsequences is meaningless 解説Osamu Masutani
 

Similar to 【CVPR 2020 メタサーベイ】Recognition (Detection, Categorization)_Group21.2 (12)

NIPS2019 Amazon「think globally, act locally : a deep neural network approach...
NIPS2019  Amazon「think globally, act locally : a deep neural network approach...NIPS2019  Amazon「think globally, act locally : a deep neural network approach...
NIPS2019 Amazon「think globally, act locally : a deep neural network approach...
 
Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
DeepCas
DeepCasDeepCas
DeepCas
 
人工知能10 サポートベクトルマシン
人工知能10 サポートベクトルマシン人工知能10 サポートベクトルマシン
人工知能10 サポートベクトルマシン
 
Overview and Roadmap
Overview and RoadmapOverview and Roadmap
Overview and Roadmap
 
SoCC12報告
SoCC12報告SoCC12報告
SoCC12報告
 
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
 
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
 
文献紹介:EfficientDet: Scalable and Efficient Object Detection
文献紹介:EfficientDet: Scalable and Efficient Object Detection文献紹介:EfficientDet: Scalable and Efficient Object Detection
文献紹介:EfficientDet: Scalable and Efficient Object Detection
 
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
 
Clustering of time series subsequences is meaningless 解説
Clustering of time series subsequences is meaningless 解説Clustering of time series subsequences is meaningless 解説
Clustering of time series subsequences is meaningless 解説
 

Recently uploaded

業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 

Recently uploaded (8)

業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 

【CVPR 2020 メタサーベイ】Recognition (Detection, Categorization)_Group21.2

  • 1. CVPR 2020の動向・気付き・メタサーベイ 
 1 Group 21.2 Survey Members
 Group 21.2: Recognition (Detection, Categorization)
  • 2. 2 Detectionの傾向
 • 問題設定や学習方式など、広がりが見える
 – 問題設定
 • 3D(時系列または三次元空間)
 • NAS(Neural Architecture Search)
 • 条件がつかない「一般物体検出の論文」は少ない
 – EfficientDetやSaccadeNetなどPoster採択はあり
 – Instance Segmentationでは、いくつか論文も
 – 学習方式
 • Long-Tailな不均衡データセットに対する学習
 • Few-Shot学習/弱教師あり学習

  • 3. 3 Categorizationの傾向
 • Detectionと同様に、広がりが見える
 – 問題設定
 • データや特徴空間の変換
 • アテンション機構
 • エッジ/モバイルを前提としたCNNの高速な推論
 – 学習方式
 • Few-Shot学習/弱教師あり学習
 • 自己教師あり学習/教師なし学習
 • オンライン学習(インクリメンタルな追加学習)
 • Knowledge Distillation

  • 4. 4 Person Re-Identification/Person Search
 • CVPR 2020で、多数が中国の組織からの論文
 – Person Re-Identification: 複数カメラに映った人物を識別
 • 題名に含む論文21本のうち17本が、中国の組織を含む
 – Person Search: 同一人物を、複数カメラの映像から検索
 • 題名に含む論文6本の全てが、中国の組織から
 – 組織的・非組織的な要因による、複合要因と推測
 • 組織的な要因
 – 国家的な方策と合致し、研究資金を獲得しやすい
 – 研究資金があれば、必要なデータセットも作成可能
 • 非組織的な要因
 – CNNの特徴抽出の応用研究として、課題が幅広い

  • 5. 5 論文全般の傾向
 • 当然ではあるが、全体が整った論文が多い
 – 既存の課題設定
 • やはりSOTAを出していることは強い
 • SOTAでない場合、Ablation Studyや補足実験
 – 新たな課題設定
 • 既存のCV課題に対し、何らかのアレンジ
 • 自分でデータセットを作っている場合も多い
 – コスト(費用・期間)が発生するが、データは必要
 – その他、読みやすさに対する工夫
 • Figure 1とAbstract(次頁)

  • 6. 6 Figure 1とAbstract
 • CVPRでは、Figure 1で「印象を残す」傾向
 – 査読者は多忙で、かつ専門が近い論文の査読とは限らない
 • 査読者は得意分野でなくても、読まなければならない
 • 「読みにくい」だけで、心証を損なう可能性が高い
 – 査読者ではない読者にも「読みやすさ」は重要
 ⇒ Figure 1とAbstractで、第一印象を判断される
 
 – Figure 1で印象を残すため、大きく分けると以下の傾向
 • 提案手法の要点をアピール
 • 課題解決の特色をアピール

  • 7. 7 Figure 1の例
 • 本文が読まれるように、論文の意図をアピール
 – 「提案手法の要点をアピール」の例
 • Unsupervised Person Re-Identification
 via Multi-Label Classification
 – CVPR 2020で、Oral採択
 – 教師なし学習による人物再同定
 – Figure 1で、提案手法の枠組みを図解
 – 「課題解決の特色をアピール」の例
 • ABCNet: Real-time Scene Text Spotting
 with Adaptive Bezier-Curve Network
 – CVPR 2020で、Oral採択
 – テキスト領域が、曲がっていても検出
 – Figure 1で、曲がったテキストに対し
 検出結果をセグメンテーションと比較
 一番上の例は、京都の居酒屋の看板
  • 8. 8 ABCNet
 • ベジェ曲線を用いて、曲がったテキストも検出
 – CNN-RNNで、Bounding Boxごとに頂点8個を回帰で検出
 – 頂点4個ずつを、ベジェ曲線の制御点として曲線2本を描画
 • 着想が面白く、前述のFigure 1が見栄えして映る
 • ていねいな説明で、書き方などの参考になりそう
 • データセットも独自に作成 → 大変だけど必要ではないか
 – オーストラリアのアデレード大学(次頁)を中心とした論文

  • 9. 9 Adelaide Intelligent Machines Group
 • University of Adelaideの研究グループ
 – アデレード大学は、オーストラリアの公立大学
 – Chunhua Shen教授が中心的な人物の模様
 • FCOS (ICCV 2019採択)
 • CVPR 2020では、前述のABCNetを含め12本の論文
 • ECCV 2020にも、11本の論文が採択されている模様
 – GitHubで、Detectron2ベースの実装「AdelaiDet」を公開
 • https://github.com/aim-uofa/AdelaiDet
 • FCOSに加え、BlendMaskやABCNetなどの実装も

  • 10. 10 GPU事情
 • 組織によって使用できるGPUリソースは違う
 – 一部の企業は、潤沢なリソースを保有
 • 国外: Google/DeepMind、Facebook AI、NVIDIA
 • 国内: Preferred Networks
 – 上記以外の組織は、千差万別の模様
 • CVPR 2020では、1080Ti×2枚が戦える最低ラインか
 • Abstractで「1080Tiで動く」とアピールする論文も
 • 「V100×4で実験した」とある大学からの論文も多い
 • Tiny ImageNetなどでリソースを節約している論文も
 – 非CNNの論文ではCPUのみの実験も見られたが、例外的

  • 11. 11 その他の気付き事項
 • 論文の誤記などは少ないが、ないこともない
 – ある論文に「we design ~」の脱字と思われる「deign」
 • deignも動詞なので、スペルチェックは通った模様
 • スペルチェックだけでなく、内容のチェックも大切
 – Supplementary Materialが、CVPR公式で読めない論文も
 • 本文で言及されているにもかかわらず、存在しない
 • ほとんどの論文はarXivにもあるため、そちらも確認