2. CNNアーキテクチャ
GoogLeNet [Szegedy et al.]
Easily Fooled [Nguyen et al.]
Epitomic [Papandreou et al.]
Equivariance and Equivalence [Lenc et al.]
DPMs are CNNs [Girshick et al.]
DeepID-Net [Ouyang et al.]
FVs meet NN [Perronnin et al.]
CNN-DPM-NMS [Wan et al.]
Sparse CNN [Liu et al.]
CNN at Constrained Time Cost [He et al.]
Deep Image Representation [Mahendran et al.]
人物応用
TA-CNN [Tian et al.]
FaceNet [Schroff et al.]
MPIIGaze [Zhang et al.]
Finding Action Tubes [Gkioxari et al.]
TDD [Wang et al.]
RNN for Skeleton [Du et al.]
Deeply learned face [Sun et al.]
物体検出
Bayesian Optimization and Structured Prediction
[Zhang et al.]
Weakly-supervised learning [Oquab et al.]
Adaptive Region Pooling [Tsai et al.]
DevNet [Gan et al.]
Deeply Learned Attributes [Shao et al.]
Deeper Look at Pedestrian [Hosang et al.]
Fusing Deep Channels [Xiong et al.]
Markerless MoCap [Elhayek et al.]
3. DNN+α
Deep Pattern Mining [Li et al.]
Deep Domain Adaptation [Chen et al.]
Deep Hashing [Liong et al.]
Deep Representation for Geolocalization [Lin et al.]
セグメンテーション
Hypercolumns [Hariharan et al.]
Saliency based Multiscale Deep Features [Li et al.]
Fine-grained
Two-level Attention Models [Xiao et al.]
Hyper-class [Xie et al.]
Deep LAD [Lin et al.]
3次元
3D Deep Shape Descriptor [Fang et al.]
DeepShape [Xie et al.]
画像処理
CNN for Motion Blur [Sun et al.]
Shadow Optimization [Shen et al.]
6. Keywords: Convolutional Neural Networks (CNN), Compositional Pattern-Producing Network (CPPN)
新規性・差分
手法概要
CNNは人間と認識の構造が異なるため,人間ほどの認識は
出ないという提案.CNNの弱点に関して検証した論文.
CNNの弱点を知ることで,次の戦略を立てるために必要な
準備をするという提案.
CNNは画像を入力した場合には必ず出力を出すので,人間にとってはよ
く分からないパターンに関しても確率分布として出力してしまうため,
意図していないものに関しては識別ができない.また,CNNが謝る最悪
のパターンを生成して画像に埋め込むことにより,見た目に反して識別
の誤りを出力してしまう.下図はCPPNにより生成したパターンや誤り
の例である.
Anh Nguyen, Jason Yosinski, Jeff Clune, “Deep Neural Networks are Easily Fooled: High Confidence Predictions
for Unrecognizable Images”, in CVPR, 2015.
Links
論文 http://arxiv.org/abs/1412.1897
プロジェクト http://www.evolvingai.org/fooling
7. Keywords: Convolutional Neural Networks (CNN), Epitome,
新規性・差分
手法
結果
概要
画像認識の問題として,位置ずれやスケーリングがあるが,
CNN内でこれらに頑健にするための提案.
ConvolutionやMax-pooling手法を改善し,スケーリングや
位置ずれに対して頑健にするという提案.
Mini-epitomic deep networksの提案.Epitomeとは例えば左図のようにあ
る図形を構成するためにより小さな図形を組み合わせて構成する仕組み
のようなことをいう.このためにCNNのパラメータを共有し,かつスケ
ール変動に対応するためにDeepNetアーキテクチャ内のConvやMax-
pooling層を改善する.そのため,入力画像よりも少し大きくかつその入
力画像に対応する画像を用意し,検出窓を統合する際の学習方法に
Multiple Instance Learning (MIL)を適用する.
BaselineであるCNNがエラー率13.0%であるのに対してMini-epitomic
deep networksはエラー率11.9%であった.また,右図はスケールや位置
を変えて実験した例である.
George Papandreou, Iasonas Kokkinos, Pierre-Andre Savalle, “Untangling Local and Global Deformation in Deep
Convolutional Networks for Image Classification and Sliding Window Detection”, in CVPR, 2015.
Links
論文 http://arxiv.org/pdf/1412.0296.pdf
著者 http://ttic.uchicago.edu/~gpapan/index.html
8. Keywords: Convolutional Neural Networks (CNN), Equivariance, Invariance, Equivalence
新規性・差分
手法と考察概要
画像の表現に関する調査.Equivariance, Invariance,
Equivalenceについて調査した.
CNNアーキテクチャの拡張についてまとめており,特に幾
何的な変化に対する頑健性を高めるために重要な調査であ
る.
Equivarianceは画像の変化による表現の変化であり,invarianceはその特
殊な例で,画像の変化によらず画像特徴などの表現が一定である.
Equivalenceはその2つの特性を保有する.ここではOxford Univ.の提案し
たCNNアーキテクチャであるVGG 16-layerを適用して,畳込まれた特徴
を幾何変換して画像の変動に頑健にする.変換行列は非常に単純であり,
図のように画素値や,特徴空間上での対応関係が取得できるようにする.
Transformation layerにより,CNNアーキテクチャのmid-level, high-level
な特徴を,回転フリーにする.さらにはstitching layerを導入することに
より,戦型フィルタによる特徴蓄積表現を実現する.画像の幾何的な変
換にも頑健に対応し,それらmid-level, high-levelな特徴量の組み合わせ
により物体を検出可能である.
K. Lenc, Andrea Vedaldi, “Understanding Image Representations by Measuring Their Equivariance and
Equivalence”, in CVPR, 2015.
Links
論文
http://www.robots.ox.ac.uk/~vedaldi/assets/
pubs/lenc15understanding.pdf
9. Keywords: DPM, CNN, CNN architecture
新規性・差分
手法
結果
概要
CNNのフレームワークの中にDPMを組み込むという提案.
HOGによる畳み込みや,そのプーリング手法を新規に提
案した.また,それによりCNNのプーリングの仕組みを理
解することができた.
DPMはHOG特徴量を用いているため,HOGのようなエッジ情報もプー
リングできる仕組みにするため,Max-poolingの一般化としてdistance
transform poolingを提案した.また,ブラックボックスであるCNNでな
く,うまくいくことがわかっている設計の特徴量を使うことで全結合層
を入れかえる.これをDeepPyramid DPMと名付けた.下はHOGとCNN
の第5層の特徴可視化である.HOGと比べるとCNN特徴量の方がより領
域を選択的に特徴学習している.
本論文では,distance transform poolingやobject geometryfilters, maxout
unitsの仕組みを導入することでHOGベースの特徴量でCNNのような特
徴抽出ができることがわかった.精度こそCNNに及ばないが,まだまだ
解明されていないCNNの学習法の解明に近づいたと言える.
R. Girshick, F. Iandola, T. Darrell, J. Malik, “Deformable Part Models are Convolutional Neural Networks”, in
CVPR2015.
Links
論文 http://www.cs.berkeley.edu/~rbg/papers/cvpr15/dpdpm.pdf
コード https://github.com/rbgirshick/DeepPyramid
10. Keywords: DeepID-Net, ILSVRC2014
新規性・差分
手法
結果
概要
The Chinese University of Hong Kong (CUHK)のグループ
がILSVRC2014にチャレンジした時の物体検出手法.
Max-poolingやAverage-poolingの代わりとしてDef-pooling
を提案することで,DPMのような形状変化に対する表現方
法を実現し,物体検出の精度向上に貢献した.
DeepID-NetではR-CNNをベースにしているが,さらに前処理としてbox
rejection, 画像や物体レベルのアノテーションによるパラメータ調整をす
る.次に,deformation constrained pooling (def-pooling)の適用により
DPMのようにカメラに対する写り方,配置や姿勢の変動に頑健な物体の
特徴取得ができる.Def-poolingはmax-poolingに置き換えることが可能.
ILSVRC2014の物体検出チャレンジにて50.3%,PASCAL VOC2007デー
タセットに対して64.1%での物体検出を実現した.複数のチューニング
があるが,やはりdef-poolingによる物体アピアランスの変動に対して柔
軟性を持たせたことが影響している.
W. Ouyang, X. Wang, X. Zeng, S. Qiu, P. Luo, Y. Tian, H. Li, S. Yang, Z. Wang, “DeepID-Net: Deformable Deep
Convolutional Neural Networks for Object Detection”, in CVPR2015.
Links
論文 http://arxiv.org/pdf/1409.3505.pdf
プロジェクト http://mmlab.ie.cuhk.edu.hk/projects/ImageNet2014.html
28. Keywords: Event Recognition, CNN
新規性・差分
手法
結果
概要
複数の識別結果や要素を統合して複雑なイベントの認識に
取り組む.CNN特徴量と物体・人物検出・顔検出の結果を
総合してイベントを認識する.
静止画に対して,複数の手がかりを用いて複雑なイベント
認識を実現した.さらには物体や人物のつながりが重要で
あることを実証した.
下図は2つのチャネルを統合したイベント認識のフレームワークである.
ひとつはCNNのconvolutionやpoolingによる特徴を取り出し,もう一方で
は物体・人物検出・顔検出の結果を取りだす.それぞれの特徴量を統合
して最終的なクラス分類のための特徴ベクトルとする.
・
Yuanjun Xiong, Kai Zhu, Dahua Lin, Xiaoou Tang, “Recognize Complex Events from Static Images by Fusing
Deep Channels”, in CVPR2015.
Links
論文
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/
Xiong_Recognize_Complex_Events_2015_CVPR_paper.pdf
29. Keywords: CNN, Markerless MoCap, Pose Estimation
新規性・差分
手法
結果
概要
CNN特徴を用いたマーカレスモーションキャプチャに関す
る研究.いかに少ないカメラでモーションキャプチャを実
現するかにフォーカスした.
モーションキャプチャには通常マーカを用いてるが,マー
カを用いず,しかも2~3台のカメラ数でモーションキャプ
チャを実現した.
実用上は2~3台のカメラでマーカレスMoCapが実現すれば,設置のコス
トを削減することができる.ここでは,CNNによるLearning-baseな関節
位置の推定に挑戦する.カメラの台数が多すぎる(e.g. 8台)と処理時間が
かかり,単眼では精度が悪いという問題点があったので2, 3台で効率良
く探索するためにConvNetによる関節位置の推定を行う.データセット
は屋内や屋外環境からカメラや携帯カメラにて撮影された動画像を適用
してから姿勢を推定する.事前情報を導入してCNNによる尤度計算によ
り事後確率を計算するため,ロバストなマーカレスMoCapシステムとな
っている.屋外環境における照明が強い条件下においても姿勢の推定が
できている.プロジェクトページの動画参照.
A. Elhayek, E. de Aguiar, A. Jain, T. Tompson, L. Pishculin, M. Andriluka, C. Bregler, B. Schiele, “Efficient
ConvNet-based Marker-less Motion Capture in General Scenes with a Low Number of Cameras”, in CVPR2015.
Links
論文 http://gvv.mpi-inf.mpg.de/projects/convNet_moCap/vids/CVPR15.pdf
プロジェクト http://gvv.mpi-inf.mpg.de/projects/convNet_moCap/