Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ILSVRC2015 手法のメモ

4,881 views

Published on

ILSVRC2015の手法を紹介した資料です。
メモ書き程度の内容ですが共有します。

ImageNet and MS COCO Visual Recognition Challenges Joint Workshop
http://image-net.org/challenges/ilsvrc+mscoco2015

Published in: Science
  • Be the first to comment

ILSVRC2015 手法のメモ

  1. 1. 160112 DL勉強会 片岡 裕雄, Ph.D. 産業技術総合研究所 知能システム研究部門 コンピュータビジョン研究グループ http://www.hirokatsukataoka.net/
  2. 2. Sergey Zagoruyko, Tsung-Yi Lin, Pedro Pinheiro, Adam Lerer, Sam Gross, Soumith Chintala, Piotr Dollár, FAIR (Facebook AI Research), in ILSVRC, 2015. 【1】 手法 Links ポスター hLp://image-net.org/challenges/talks/COCO-ICCV15-clean.pdf 結果 ・FacebookはCOCO Object DetecSonにフォーカスしていた ・DeepMask[Pinheiro+, NIPS2015]による候補領域とFast R-CNNに対して複数の改善 ・IteraSve LocalizaSon (+1.0AP)やTop-down refinement (+0.7AP)などのテクニックも有効 ・パッチを分解して特徴評価・BBox回帰するFoveal structure[Gidaris+, ICCV2015]により+2.0AP ・複数の重なり率による誤差MulS-threshold lossにより+1.5AP ・トレーニングは4Maxwell GPUを用いて4日間,8x4 Kepler/ElasSc Averaging SGD[Zhang+, NIPS2015]により2.5日 ・Base Modelにより30.1AP,Horizontal flipにより31.1AP,ROI Pooling '2 crop'により32.1AP,7-model ensembleにより33.5AP ・SegmentaSonはDeepMask (Proposal BBoxes) - Fast RCNN (Scored BBoxed) - DeepMask (Scored Segments)により実行 ・将来展望として背景との混同や微小領域の高精度化,コンテキストの活用,fast/proposal-freeな検出が挙げられる ・MS COCO datasetの検出にて第2位 ・Fast R-CNNが19.7%の検出率に対して33.5%(約66%の向上, MSRAは37.3%)
  3. 3. CUImage (Chinese Univ. of Hong Kong) "CUImage-poster.pdf", Cascaded Networks for Object DetecSon with MulS-Context Modeling and Hierarchical Fine-Tuning, in ILSVRC, 2015. 【2】 手法 Links ポスター hLp://image-net.org/challenges/posters/CUimage_poster.pdf [1] X. Zeng, et al. Window-Object RelaSonship Guided RepresentaSon Learning for Generic Object DetecSons , axiv preprint. [2] W. Ouyang, et al. Factors in Finetuning Deep Model for object detecSon, axiv preprint. [3] J. Yan, et al. CRAFT Objects from Images, axiv preprint. [4] W. Ouyang, et al. Deepid-net: Deformable deep convoluSonal neural networks for object detecSon. CVPR, 2015. [5] J. Yan, et al. Object detecSon by labeling superpixels. CVPR, 2015. 結果 ・MulS-context[1]: 複数のパッチサイズ/複数のコンテキストを含む画像を評価,特徴を連結させてSVMによりスコアリング ・Cascaded hierarchical feature learning[2]: クラスごとに異なる有効な特徴を評価するために階層的カスケード特徴学習を実行, 階層的クラスタリングが物体のグルーピングに適用されそれぞれのモデルをfine-tuning ・Cascade Region-Proposal-Network and Fast RCNN (CRAFT)[3]: RPNの候補領域を再評価(IoU>0.7をposi, IoU<0.3をnega)して候補領域 をさらに絞り込み,Cascade識別器により識別 ・ImageNet DetecSonにおいて52.7%, ImageNet DetecSonにて3位 (MSRAは62.1%) ・CRAFTにより候補領域の精度が94+%
  4. 4. WM (Univ. of Chinese Academy of Sciences, Peking Univ.) Li Shen, Zhouchen Lin, in ILSVRC, 2015. 【3】 手法 Links ポスター hLp://image-net.org/challenges/talks/WM_presentaSon.pdf [1] K. He, X. Zhang, S. Ren and J. Sun. SpaSal pyramid pooling in deep convoluSonal networks for visual recogniSon. In ECCV 2014. 結果 ・VGG-likeアーキテクチャ ・Model Aは22層構成,最後のMaxプーリング層をSPP層[1]に置き換え ・Model BはmulS-scaleの統合,サンプルの非一様分布によるバランスサンプリング ・Relay Back-PropagaSon(右図)による勾配消失の防止 ・Place2にて優勝, ClassificaSon errorが16.87%
  5. 5. ION, (Cornell University, Microsos Research), Sean Bell, Kavita Bala, Larry Zitnick, Ross Girshick, “Inside-OutSide Net: DetecSng Objects in Context with Skip Pooling and Recurrent Neural Networks”, in ILSVRC, 2015. 【4】 手法 Links 論文 hLp://arxiv.org/pdf/1512.04143.pdf ポスター hLp://image-net.org/challenges/talks/ion-coco-talk-bell2015.pdf 結果 ・Fast R-CNNをベースにする ・FRCNNのROI poolingは必要部の局所領域のみしか識別に用いないが,提案ではconv3/conv4/conv5を統合,次元圧縮して全結合 層へ入力 ・さらにNormalizaSon,Rescaleの処理も加える ・4方向に走査可能なRNNを2つ積み上げることですべての特徴マップに対して表現可能 ・ION Detectorにより+5.1mAP ・さらにデータの追加により+3.9mAP ・Faster R-CNNのRPNを用いてデータ数を増やす ・RPNは9 anchorから22 anchorに変更,7 scales x 3 aspect raSos, 32x32 ・トレーニングにより+4.1mAP ・No dropout, longer with larger mini-batches, セグメンテーションによる正規化 ・MR-CNN (PASCALデータ追加,閾値の設定,左右反転画像など) ・MS COCO detecSonにて第3位 (学生トップ) ・31.0% (test-compeSSon), runSme 2.7s ・33.1% (post-compeSSon)
  6. 6. CUvideo Team, Kai Kang (Chinese Univ. of Hong Kong), “Object DetecSon in Videos with Tubelets and MulS-context Cues”, in ILSVRC, 2015. 【5】 手法 Links ポスター hLp://image-net.org/challenges/talks/Object%20DetecSon%20in%20Videos%20with%20Tubelets%20and%20MulS-context%20Cues%20-%20Final.pdf [1] Wang, Lijun et al. Visual Tracking with Fully ConvoluSonal Networks. ICCV 2015. [2] J. Yan, et al. CRAFT Objects from Images, axiv preprint. [3]W. Ouyang, et al. Deepid-net: Deformable deep convoluSonal neural networks for object detecSon. CVPR, 2015. 結果 ・ビデオによる物体検出 ・初期値として静止画により検出 ・(1) 時系列の候補領域(Temporal Tubelet Re-scoring)のスコア値算出 ・静止画による検出はフレーム間で不安定なため,領域の時系列評価を行うのがTubelet ・信頼度の高い領域の追跡[1],空間的なMax-pooling,時間軸でのスコア再計算 ・空間的なMax-poolingにより,最大値領域のみを残す (Kalman filterによるbbox推定) ・(2) MulS-context suppression (MCS) & MoSon Guided PropagaSon (MGP) ・MCSはすべてのbboxのスコア値をソート,時系列でハイスコアのクラスが変化しないものは検出結果として残す ・MGPは検出結果をより時間的に後のフレームに伝播させ,前に検出されたものを後のフレームでも探索,NMSしやすい ・(1), (2)のモデル統合 ・候補領域はCRAFT[2] ・識別はDeepID-Net[3] ・ILSVRC2015 VIDにて67.8%の検出率
  7. 7. Jiankang Deng, (Amax), “Cascade Region Regression for Robust Object DetecSon”, in ILSVRC, 2015. 【6】 手法 Links 論文 hLp://image-net.org/challenges/talks/JiankangDeng_UTS&NUIST-R.pdf 結果 ・ベースラインはVGG-16 (45.6) ・アップデートとして,RPN 12 anchors (+0.72), Cascade Region Regression (+2.93), Learn to Combine (+1.75), Learn to Rank (+1.94), AddiSonal Data (+2.64), VGG-16 ensemble, MulSmodels ensemble (+2.87%) ・最終的な検出率は58.98まで上昇(@validaSon2セット) ・各畳み込みの工程毎にbbox regressionを行うCascade Region Regressionが効果的であり,2.93%も検出率が上昇した ・Model EnsembleはVGG-16, GoogLeNetやその他アーキテクチャから取り出した特徴マップを統合 ・ILSVRC2015 VID (External)にて73.1%の検出率
  8. 8. Jie Shao, Xiaoteng Zhang, Jianying Zhou, Zhengyan Ding, (Trimps), in ILSVRC, 2015. 【7】 手法 Links ポスター hLp://image-net.org/challenges/talks/Trimps_ilsvrc2015.pdf 結果 ・複数のモデルを統合,スコア値により統合(+1.07%), ラベルによる統合(+1.17%) ・7 x BN-IncepSon (GoogLeNet-like; 32layers) ・2 x MSRA-Net (PReLU; 22layers) ・データ拡張あり ・LocalizaSonはFast-R-CNNをベースラインとした ・候補領域はEdgeBoxes ・ILSVRC2015 object localizaSoin 12.29%で2位 (追加データOK-extra dataでは1位) ・ILSVRC2015 object VID 46.1%で4位 (extra dataでは3位) ・Scene classificaSon 17.98%のエラー率で4位 ・ILSVRC2015 object detecSonでは44.6%で7位
  9. 9. MIL-UT, Masataka Yamaguchi, Qishen Ha, Katsunori Ohnishi, Masatoshi Hidaka, Yusuke Mukuta, Tatsuya Harada, in ILSVRC, 2015. 【8】 手法 Links ポスター hLp://image-net.org/challenges/posters/MILUT.pdf 結果 ・Fast R-CNN + VGG-16をベースラインとする ・FC7(sosmaxの前の層)を特徴として使用 ・第4のmax-pooling層をRoI pooling layerに置き換える ・RoI poolingによる特徴と画像全体のCNN特徴を組み合わせる ・Bbox regressionも適用する ・Bayesian opSmizaSonによるモデルの統合 ・ILSVRC2015 DET with external dataにて47.0%, 第3位

×