SlideShare a Scribd company logo
1 of 11
Download to read offline
どんなもの?
先行研究と比べて何がすごい?
技術の手法や肝は?
どうやって有効だと検証した?
次に読むべき論文は?
Fisher Yu and Vladlen Koltun. Multi-scale context aggregation by dilated convolutions.
In ICLR, 2016.








様々な. Ablation Studies(各構成要素を1つだけ抜いた手法を比較)を行なってそれぞれの
構成要素がどの程度モデルに貢献しているかを検証。比較対象としてFaster R-CNNを使
用、データセットにはCOCO datasetを使用。また、他の最先端モデルとも比較し、
TridentNetが最も良いスコアとなった。




これまでの手法の畳み込み層を、三つに枝分かれした、膨張率だけ違ってパラメータを
共有する畳み込み層に置き換える(TridentNet)。パラメータを共有するのでパラメータ
数が少なくなる。従ってパラメータはスケールの異なった他のブランチの学習によって
も更新される。

これまでの手法は極端に大きい、あるいは小さいスケールの変化が検出器の性能に悪影
響を与えていた。これに対する対策として今まで使われていた手法は過学習のリスクを
下げる一方で、スケールによっては学習が効率的に進まないという問題があった。
TridentNetはすべてのスケールで均一な表現力を持つ特徴量を作り、効率的に学習を行
うことができる。





近年の物体検出の手法ではスケールの変化に対応しなければならなかった。そこで
Trident Networkと呼ばれる単純なオブジェクト検出方法を提示して、均一な表現力を持
つネットワーク内のスケール固有の機能マップを構築した。主要な分岐を使用した高速
な推論方法により、TridentNetは、追加のパラメーターや計算を行うことなく、ベース
ライン方法よりも大幅に改善される。




Scale-Aware Trident Networks for Object Detection
(20 Aug 2019) Yanghao Li/Yuntao Chen
日付
どんなもの?
先行研究と比べて何がすごい?
技術の手法や肝は?
どうやって有効だと検証した?
次に読むべき論文は?
Chen, Liang-Chieh, Yang, Yi, Wang, Jiang, Xu, Wei, and Yuille, Alan L. Attention to
scale: Scale-aware semantic image segmentation. arXiv:1511.03339, 2015b.







Dilated Convolution を使って受容野を拡張したモデルと、そうでないモデルでセグメン
テーションの結果を比較。受容野をより大きく拡大したモデルが最も良いスコアを残し
た。




Dilated Convolution は、フィルターとの積を取る相手の間隔をあける畳み込みのこと。
これによって受容野を簡単に、指数関数的に増やすことができる。





従来の畳み込み層は予測に至るまでにプーリング、サブサンプリング層を経て解像度が
下がってしまう。新たな畳み込み層はプーリング、サブサンプリングを必要としないた
め、解像度や範囲を落とすことなく受容野を拡張することができる。







セマンティックセグメンテーションで使われるCNNは元々は画像分類のための手法で
あったため、セマンティックセグメンテーションに適した新たな畳み込み層を考案した。
解像度を落とすことなく受容野の拡張が可能なdilated convolutionsはセグメンテーショ
ンだけでなく、画像分類モデルに適用しても精度の上昇に貢献した。




MULTI-SCALE CONTEXT AGGREGATION BY DILATED
CONVOLUTIONS
(30 Apr 2016)Fisher Yu/Vladlen Koltun
日付
どんなもの?
先行研究と比べて何がすごい?
技術の手法や肝は?
どうやって有効だと検証した?
次に読むべき論文は?
K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In
CVPR, 2016.

データセットに20種類のラベルを持つPASCAL VOC を使って実験を行なった。
Naïve Faster R-CNNとClass-specific RPNとR-FCN without position-sensitivityで比較
Faster R-CNN Using ResNet-101との比較も行なった。いずれの実験でもR-FCNのAPが高
かった。




基本的な構造はFaster R-CNNと似ている?
featuremap以降の畳み込みは画像全体で行い、その結果とRPNの領域提案を照らし合わ
せる。
RoI-poolの結果から多数決(?)によってその領域が物体であるか否かを判断する。

SPPnet, Fast R-CNN, and Faster R-CNN は “semiconvolutional”と呼ばれ、畳み込み層が
入力画像の変換と領域特定のフェーズで共有されている。
Faster R-CNN ,class-specific RPNと比較するとRoI output sizeが同じ条件ではRFCNの方
がmAPの値が大きかった。



シンプルかつ正確で効率的な物体検出手法である、region-based, fully convolutional
networks(R-FCN)の提案。Fast / Faster R-CNNがコストのかかる領域ごとの畳み込み演算
を繰り返しているのに対し、R-FCNは画像全体全体で計算を共有する。従来のR-CNNと
比べて2.0∼2.5倍もの計算速度だった。




R-FCN: Object Detection via Region-based Fully Convolutional Networks
(2016)Jifeng Dai /Yi Li /Kaiming He /Jian Sun
日付
どんなもの?
先行研究と比べて何がすごい?
技術の手法や肝は?
どうやって有効だと検証した?
次に読むべき論文は?
K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In
CVPR, 2016.



データセットにはCOCO benchmarkを使用。
ハイパーパラメータγ、αを変えた時にスコアがどう変化するかも検証した。
その数値を使ってFocal Lossを使用した手法、RetinaNetとその他有名なモデル(Faster R-
CNN, YOLOv2, etc.)との分析結果を比較。RetinaNetがほとんどの条件でスコアが良かっ
た。




数式は次スライド参照。
ハイパーパラメータのγとαはトレードオフの関係にあり、γ = 2, α = 0.25 がよく用いら
れる。
αは少数クラスにかける重み。

one-stageはクラス不均衡によってスコアの低下が起こるが、two-stageはその構造上そ
れが起こらない。one-stageは計算を高速に行えるという利点がある。
新たな損失関数Focal Lossを導入することによって速度はそのままにone-stageがtwo-
stageの制度を超えることができた。



なぜonw-stageが高速な一方で、two-stageに並ぶ精度を出せないのか調査したところ、
極端なクラス不均衡が原因であるとわかった。
新たに提案されたFocal Lossは少ないクラスに対する学習を集中的に行い、学習中に膨
大な数のネガ(?)が発生するを防ぐため、非常に効果的である。




Focal Loss for Dense Object Detection
(7 Feb 2018)Tsung-Yi Lin /Priya Goyal /Ross Girshick /Kaiming He /Piotr Dollar
日付
どんなもの?
先行研究と比べて何がすごい?
技術の手法や肝は?
どうやって有効だと検証した?
次に読むべき論文は?
• K.HeandJ.Sun.Convolutionalneuralnetworksatconstrainedtime cost. In
CVPR, 2015. 









ImageNet 2012 classification datasetを使用。
18層と34層のplane(shortcutなし)とResNetで比較。
34層のResNetが最もlossが小さくなった。
その他、152層など層を増やして実験したがうまく学習できており、スコアも上昇して
いた。1202層は流石にダメだった。



層を深くすると勾配消失が起こり学習がうまくいかない
→shortcut connectionを導入し、勾配減衰を防ぐことで、層を深くしても学習が行える
ようになった。



この研究によってこれまでディープニューラルネットといえばせいぜい16~30層程度だっ
たものが152層まで拡張され、非常によい精度を出せた。



ニューラルネットワークは層が深くなると学習もより難しくなる。
これまでよりも層の深いResidual networkをより簡単に学習するための手法の紹介。
この手法は最適化が容易で、大幅に層を深くすることで精度を高めることに成功した。

この手法によって様々なコンペで好成績を収めた。


Deep Residual Learning for Image Recognition
(10 Dec 2015)Kaiming He /Xiangyu Zhang /Shaoqing Ren /Jian Sun
日付
物体検出 論文読み

More Related Content

Recently uploaded

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 

Recently uploaded (9)

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 

Featured

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 

Featured (20)

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 

物体検出 論文読み

  • 1. どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? 次に読むべき論文は? Fisher Yu and Vladlen Koltun. Multi-scale context aggregation by dilated convolutions. In ICLR, 2016. 
 
 
 
 様々な. Ablation Studies(各構成要素を1つだけ抜いた手法を比較)を行なってそれぞれの 構成要素がどの程度モデルに貢献しているかを検証。比較対象としてFaster R-CNNを使 用、データセットにはCOCO datasetを使用。また、他の最先端モデルとも比較し、 TridentNetが最も良いスコアとなった。 
 
 これまでの手法の畳み込み層を、三つに枝分かれした、膨張率だけ違ってパラメータを 共有する畳み込み層に置き換える(TridentNet)。パラメータを共有するのでパラメータ 数が少なくなる。従ってパラメータはスケールの異なった他のブランチの学習によって も更新される。
 これまでの手法は極端に大きい、あるいは小さいスケールの変化が検出器の性能に悪影 響を与えていた。これに対する対策として今まで使われていた手法は過学習のリスクを 下げる一方で、スケールによっては学習が効率的に進まないという問題があった。 TridentNetはすべてのスケールで均一な表現力を持つ特徴量を作り、効率的に学習を行 うことができる。
 
 
 近年の物体検出の手法ではスケールの変化に対応しなければならなかった。そこで Trident Networkと呼ばれる単純なオブジェクト検出方法を提示して、均一な表現力を持 つネットワーク内のスケール固有の機能マップを構築した。主要な分岐を使用した高速 な推論方法により、TridentNetは、追加のパラメーターや計算を行うことなく、ベース ライン方法よりも大幅に改善される。 
 
 Scale-Aware Trident Networks for Object Detection (20 Aug 2019) Yanghao Li/Yuntao Chen 日付
  • 2.
  • 3. どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? 次に読むべき論文は? Chen, Liang-Chieh, Yang, Yi, Wang, Jiang, Xu, Wei, and Yuille, Alan L. Attention to scale: Scale-aware semantic image segmentation. arXiv:1511.03339, 2015b.
 
 
 
 Dilated Convolution を使って受容野を拡張したモデルと、そうでないモデルでセグメン テーションの結果を比較。受容野をより大きく拡大したモデルが最も良いスコアを残し た。 
 
 Dilated Convolution は、フィルターとの積を取る相手の間隔をあける畳み込みのこと。 これによって受容野を簡単に、指数関数的に増やすことができる。
 
 
 従来の畳み込み層は予測に至るまでにプーリング、サブサンプリング層を経て解像度が 下がってしまう。新たな畳み込み層はプーリング、サブサンプリングを必要としないた め、解像度や範囲を落とすことなく受容野を拡張することができる。
 
 
 
 セマンティックセグメンテーションで使われるCNNは元々は画像分類のための手法で あったため、セマンティックセグメンテーションに適した新たな畳み込み層を考案した。 解像度を落とすことなく受容野の拡張が可能なdilated convolutionsはセグメンテーショ ンだけでなく、画像分類モデルに適用しても精度の上昇に貢献した。 
 
 MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS (30 Apr 2016)Fisher Yu/Vladlen Koltun 日付
  • 4.
  • 5. どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? 次に読むべき論文は? K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016.
 データセットに20種類のラベルを持つPASCAL VOC を使って実験を行なった。 Naïve Faster R-CNNとClass-specific RPNとR-FCN without position-sensitivityで比較 Faster R-CNN Using ResNet-101との比較も行なった。いずれの実験でもR-FCNのAPが高 かった。 
 
 基本的な構造はFaster R-CNNと似ている? featuremap以降の畳み込みは画像全体で行い、その結果とRPNの領域提案を照らし合わ せる。 RoI-poolの結果から多数決(?)によってその領域が物体であるか否かを判断する。
 SPPnet, Fast R-CNN, and Faster R-CNN は “semiconvolutional”と呼ばれ、畳み込み層が 入力画像の変換と領域特定のフェーズで共有されている。 Faster R-CNN ,class-specific RPNと比較するとRoI output sizeが同じ条件ではRFCNの方 がmAPの値が大きかった。
 
 シンプルかつ正確で効率的な物体検出手法である、region-based, fully convolutional networks(R-FCN)の提案。Fast / Faster R-CNNがコストのかかる領域ごとの畳み込み演算 を繰り返しているのに対し、R-FCNは画像全体全体で計算を共有する。従来のR-CNNと 比べて2.0∼2.5倍もの計算速度だった。 
 
 R-FCN: Object Detection via Region-based Fully Convolutional Networks (2016)Jifeng Dai /Yi Li /Kaiming He /Jian Sun 日付
  • 6.
  • 7.
  • 8. どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? 次に読むべき論文は? K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016.
 
 データセットにはCOCO benchmarkを使用。 ハイパーパラメータγ、αを変えた時にスコアがどう変化するかも検証した。 その数値を使ってFocal Lossを使用した手法、RetinaNetとその他有名なモデル(Faster R- CNN, YOLOv2, etc.)との分析結果を比較。RetinaNetがほとんどの条件でスコアが良かっ た。 
 
 数式は次スライド参照。 ハイパーパラメータのγとαはトレードオフの関係にあり、γ = 2, α = 0.25 がよく用いら れる。 αは少数クラスにかける重み。
 one-stageはクラス不均衡によってスコアの低下が起こるが、two-stageはその構造上そ れが起こらない。one-stageは計算を高速に行えるという利点がある。 新たな損失関数Focal Lossを導入することによって速度はそのままにone-stageがtwo- stageの制度を超えることができた。
 
 なぜonw-stageが高速な一方で、two-stageに並ぶ精度を出せないのか調査したところ、 極端なクラス不均衡が原因であるとわかった。 新たに提案されたFocal Lossは少ないクラスに対する学習を集中的に行い、学習中に膨 大な数のネガ(?)が発生するを防ぐため、非常に効果的である。 
 
 Focal Loss for Dense Object Detection (7 Feb 2018)Tsung-Yi Lin /Priya Goyal /Ross Girshick /Kaiming He /Piotr Dollar 日付
  • 9.
  • 10. どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? 次に読むべき論文は? • K.HeandJ.Sun.Convolutionalneuralnetworksatconstrainedtime cost. In CVPR, 2015. 
 
 
 
 
 ImageNet 2012 classification datasetを使用。 18層と34層のplane(shortcutなし)とResNetで比較。 34層のResNetが最もlossが小さくなった。 その他、152層など層を増やして実験したがうまく学習できており、スコアも上昇して いた。1202層は流石にダメだった。
 
 層を深くすると勾配消失が起こり学習がうまくいかない →shortcut connectionを導入し、勾配減衰を防ぐことで、層を深くしても学習が行える ようになった。
 
 この研究によってこれまでディープニューラルネットといえばせいぜい16~30層程度だっ たものが152層まで拡張され、非常によい精度を出せた。
 
 ニューラルネットワークは層が深くなると学習もより難しくなる。 これまでよりも層の深いResidual networkをより簡単に学習するための手法の紹介。 この手法は最適化が容易で、大幅に層を深くすることで精度を高めることに成功した。
 この手法によって様々なコンペで好成績を収めた。 
 Deep Residual Learning for Image Recognition (10 Dec 2015)Kaiming He /Xiangyu Zhang /Shaoqing Ren /Jian Sun 日付