物体検出　論文読み

どんなもの？
先行研究と比べて何がすごい？
技術の手法や肝は？
どうやって有効だと検証した？
次に読むべき論文は？
Fisher Yu and Vladlen Koltun. Multi-scale context aggregation by dilated convolutions.
In ICLR, 2016.
 
 
 
 
様々な. Ablation Studies(各構成要素を1つだけ抜いた手法を比較)を行なってそれぞれの
構成要素がどの程度モデルに貢献しているかを検証。比較対象としてFaster R-CNNを使
用、データセットにはCOCO datasetを使用。また、他の最先端モデルとも比較し、
TridentNetが最も良いスコアとなった。
 
 
これまでの手法の畳み込み層を、三つに枝分かれした、膨張率だけ違ってパラメータを
共有する畳み込み層に置き換える(TridentNet)。パラメータを共有するのでパラメータ
数が少なくなる。従ってパラメータはスケールの異なった他のブランチの学習によって
も更新される。 
これまでの手法は極端に大きい、あるいは小さいスケールの変化が検出器の性能に悪影
響を与えていた。これに対する対策として今まで使われていた手法は過学習のリスクを
下げる一方で、スケールによっては学習が効率的に進まないという問題があった。
TridentNetはすべてのスケールで均一な表現力を持つ特徴量を作り、効率的に学習を行
うことができる。 
 
 
近年の物体検出の手法ではスケールの変化に対応しなければならなかった。そこで
Trident Networkと呼ばれる単純なオブジェクト検出方法を提示して、均一な表現力を持
つネットワーク内のスケール固有の機能マップを構築した。主要な分岐を使用した高速
な推論方法により、TridentNetは、追加のパラメーターや計算を行うことなく、ベース
ライン方法よりも大幅に改善される。
 
 
Scale-Aware Trident Networks for Object Detection
（20 Aug 2019) Yanghao Li/Yuntao Chen
日付

どんなもの？
Chen, Liang-Chieh, Yang, Yi, Wang, Jiang, Xu, Wei, and Yuille, Alan L. Attention to
scale: Scale-aware semantic image segmentation. arXiv:1511.03339, 2015b. 
 
 
 
Dilated Convolution を使って受容野を拡張したモデルと、そうでないモデルでセグメン
テーションの結果を比較。受容野をより大きく拡大したモデルが最も良いスコアを残し
た。
 
 
Dilated Convolution は、フィルターとの積を取る相手の間隔をあける畳み込みのこと。
これによって受容野を簡単に、指数関数的に増やすことができる。 
 
 
従来の畳み込み層は予測に至るまでにプーリング、サブサンプリング層を経て解像度が
下がってしまう。新たな畳み込み層はプーリング、サブサンプリングを必要としないた
め、解像度や範囲を落とすことなく受容野を拡張することができる。 
 
 
 
セマンティックセグメンテーションで使われるCNNは元々は画像分類のための手法で
あったため、セマンティックセグメンテーションに適した新たな畳み込み層を考案した。
解像度を落とすことなく受容野の拡張が可能なdilated convolutionsはセグメンテーショ
ンだけでなく、画像分類モデルに適用しても精度の上昇に貢献した。
 
 
MULTI-SCALE CONTEXT AGGREGATION BY DILATED
CONVOLUTIONS
（30 Apr 2016）Fisher Yu/Vladlen Koltun
日付

どんなもの？
K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In
CVPR, 2016. 
データセットに20種類のラベルを持つPASCAL VOC を使って実験を行なった。
Naïve Faster R-CNNとClass-specific RPNとR-FCN without position-sensitivityで比較
Faster R-CNN Using ResNet-101との比較も行なった。いずれの実験でもR-FCNのAPが高
かった。
 
 
基本的な構造はFaster R-CNNと似ている？
featuremap以降の畳み込みは画像全体で行い、その結果とRPNの領域提案を照らし合わ
せる。
RoI-poolの結果から多数決（？）によってその領域が物体であるか否かを判断する。 
SPPnet, Fast R-CNN, and Faster R-CNN は “semiconvolutional”と呼ばれ、畳み込み層が
入力画像の変換と領域特定のフェーズで共有されている。
Faster R-CNN ,class-specific RPNと比較するとRoI output sizeが同じ条件ではRFCNの方
がmAPの値が大きかった。 
 
シンプルかつ正確で効率的な物体検出手法である、region-based, fully convolutional
networks(R-FCN)の提案。Fast / Faster R-CNNがコストのかかる領域ごとの畳み込み演算
を繰り返しているのに対し、R-FCNは画像全体全体で計算を共有する。従来のR-CNNと
比べて2.0∼2.5倍もの計算速度だった。
 
 
R-FCN: Object Detection via Region-based Fully Convolutional Networks
（2016）Jifeng Dai /Yi Li /Kaiming He /Jian Sun
日付

どんなもの？
K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In
CVPR, 2016. 
 
データセットにはCOCO benchmarkを使用。
ハイパーパラメータγ、αを変えた時にスコアがどう変化するかも検証した。
その数値を使ってFocal Lossを使用した手法、RetinaNetとその他有名なモデル(Faster R-
CNN, YOLOv2, etc.)との分析結果を比較。RetinaNetがほとんどの条件でスコアが良かっ
た。
 
 
数式は次スライド参照。
ハイパーパラメータのγとαはトレードオフの関係にあり、γ = 2, α = 0.25 がよく用いら
れる。
αは少数クラスにかける重み。 
one-stageはクラス不均衡によってスコアの低下が起こるが、two-stageはその構造上そ
れが起こらない。one-stageは計算を高速に行えるという利点がある。
新たな損失関数Focal Lossを導入することによって速度はそのままにone-stageがtwo-
stageの制度を超えることができた。 
 
なぜonw-stageが高速な一方で、two-stageに並ぶ精度を出せないのか調査したところ、
極端なクラス不均衡が原因であるとわかった。
新たに提案されたFocal Lossは少ないクラスに対する学習を集中的に行い、学習中に膨
大な数のネガ（？）が発生するを防ぐため、非常に効果的である。
 
 
Focal Loss for Dense Object Detection
（7 Feb 2018）Tsung-Yi Lin /Priya Goyal /Ross Girshick /Kaiming He /Piotr Dollar
日付

どんなもの？
• K.HeandJ.Sun.Convolutionalneuralnetworksatconstrainedtime cost. In
CVPR, 2015.  
 
 
 
 
ImageNet 2012 classiﬁcation datasetを使用。
18層と34層のplane(shortcutなし)とResNetで比較。
34層のResNetが最もlossが小さくなった。
その他、152層など層を増やして実験したがうまく学習できており、スコアも上昇して
いた。1202層は流石にダメだった。 
 
層を深くすると勾配消失が起こり学習がうまくいかない
→shortcut connectionを導入し、勾配減衰を防ぐことで、層を深くしても学習が行える
ようになった。 
 
この研究によってこれまでディープニューラルネットといえばせいぜい16~30層程度だっ
たものが152層まで拡張され、非常によい精度を出せた。 
 
ニューラルネットワークは層が深くなると学習もより難しくなる。
これまでよりも層の深いResidual networkをより簡単に学習するための手法の紹介。
この手法は最適化が容易で、大幅に層を深くすることで精度を高めることに成功した。 
この手法によって様々なコンペで好成績を収めた。
 
Deep Residual Learning for Image Recognition
（10 Dec 2015）Kaiming He /Xiangyu Zhang /Shaoqing Ren /Jian Sun
日付

物体検出　論文読み

Recommended

Recommended

More Related Content

Recently uploaded

Recently uploaded (9)

Featured

Featured (20)