cvpaper.challenge@CVPR2015(Deep Neural Networks)

cvpaper.challenge
Twitter@CVPaperChalleng
http://www.slideshare.net/cvpaperchallenge
MAILTO: cvpaper.challenge[at]gmail[dot]com
Deep Neural Networks (DNN)

CNNアーキテクチャ
GoogLeNet [Szegedy et al.]
Easily Fooled [Nguyen et al.]
Epitomic [Papandreou et al.]
Equivariance and Equivalence [Lenc et al.]
DPMs are CNNs [Girshick et al.]
DeepID-Net [Ouyang et al.]
FVs meet NN [Perronnin et al.]
CNN-DPM-NMS [Wan et al.]
Sparse CNN [Liu et al.]
CNN at Constrained Time Cost [He et al.]
Deep Image Representation [Mahendran et al.]
人物応用
TA-CNN [Tian et al.]
FaceNet [Schroff et al.]
MPIIGaze [Zhang et al.]
Finding Action Tubes [Gkioxari et al.]
TDD [Wang et al.]
RNN for Skeleton [Du et al.]
Deeply learned face [Sun et al.]
物体検出
Bayesian Optimization and Structured Prediction
[Zhang et al.]
Weakly-supervised learning [Oquab et al.]
Adaptive Region Pooling [Tsai et al.]
DevNet [Gan et al.]
Deeply Learned Attributes [Shao et al.]
Deeper Look at Pedestrian [Hosang et al.]
Fusing Deep Channels [Xiong et al.]
Markerless MoCap [Elhayek et al.]

DNN+α
Deep Pattern Mining [Li et al.]
Deep Domain Adaptation [Chen et al.]
Deep Hashing [Liong et al.]
Deep Representation for Geolocalization [Lin et al.]
セグメンテーション
Hypercolumns [Hariharan et al.]
Saliency based Multiscale Deep Features [Li et al.]
Fine-grained
Two-level Attention Models [Xiao et al.]
Hyper-class [Xie et al.]
Deep LAD [Lin et al.]
3次元
3D Deep Shape Descriptor [Fang et al.]
DeepShape [Xie et al.]
画像処理
CNN for Motion Blur [Sun et al.]
Shadow Optimization [Shen et al.]

Keywords: GoogLeNet, Convolutional Neural Networks (CNN)
新規性・差分
手法
結果
概要
Googleの提案するImageNetチャレンジの識別モデル．22
層から構成されるアーキテクチャ．
ImageNetデータセットにて精度を競うILSVRC2014にて
top-5のエラー率が6.67%で識別部門で1位になった．CPU
でも動くようにパラメータ数を削減．
下記はGoogLeNetのアーキテクチャとInception Moduleである．
Inceptionは前の層からの入力から”1x1”, ”1x1=>3x3”, “1x1=>5x5”,
“3x3max-pool=>1x1”の畳み込みを行うモジュールで，これを再帰的に繰
り返すことにより，ディープな構造を実現し，識別精度を高める．
ImageNetチャレンジにて，1000クラスの識別の精度top-5のエラー
率が6.67%と，参加チーム中1位の識別精度を実現した．
Christian Szegedy, Wei Liu, Yanqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru, “Going
Deeper with Convolutions”, in CVPR, 2015.
Links
論文
http://www.cv-foundation.org/openaccess/content_cvpr_2015/
papers/
Szegedy_Going_Deeper_With_2015_CVPR_paper.pdf
Caffeモデル
https://github.com/BVLC/caffe/tree/master/models/
bvlc_googlenet

Keywords: Convolutional Neural Networks (CNN), Compositional Pattern-Producing Network (CPPN)
新規性・差分
手法概要
CNNは人間と認識の構造が異なるため，人間ほどの認識は
出ないという提案．CNNの弱点に関して検証した論文．
CNNの弱点を知ることで，次の戦略を立てるために必要な
準備をするという提案．
CNNは画像を入力した場合には必ず出力を出すので，人間にとってはよ
く分からないパターンに関しても確率分布として出力してしまうため，
意図していないものに関しては識別ができない．また，CNNが謝る最悪
のパターンを生成して画像に埋め込むことにより，見た目に反して識別
の誤りを出力してしまう．下図はCPPNにより生成したパターンや誤り
の例である．
Anh Nguyen, Jason Yosinski, Jeff Clune, “Deep Neural Networks are Easily Fooled: High Confidence Predictions
for Unrecognizable Images”, in CVPR, 2015.
Links
論文 http://arxiv.org/abs/1412.1897
プロジェクト http://www.evolvingai.org/fooling

Keywords: Convolutional Neural Networks (CNN), Epitome,
新規性・差分
手法
結果
概要
画像認識の問題として，位置ずれやスケーリングがあるが，
CNN内でこれらに頑健にするための提案．
ConvolutionやMax-pooling手法を改善し，スケーリングや
位置ずれに対して頑健にするという提案．
Mini-epitomic deep networksの提案．Epitomeとは例えば左図のようにあ
る図形を構成するためにより小さな図形を組み合わせて構成する仕組み
のようなことをいう．このためにCNNのパラメータを共有し，かつスケ
ール変動に対応するためにDeepNetアーキテクチャ内のConvやMax-
pooling層を改善する．そのため，入力画像よりも少し大きくかつその入
力画像に対応する画像を用意し，検出窓を統合する際の学習方法に
Multiple Instance Learning (MIL)を適用する．
BaselineであるCNNがエラー率13.0%であるのに対してMini-epitomic
deep networksはエラー率11.9%であった．また，右図はスケールや位置
を変えて実験した例である．
George Papandreou, Iasonas Kokkinos, Pierre-Andre Savalle, “Untangling Local and Global Deformation in Deep
Convolutional Networks for Image Classification and Sliding Window Detection”, in CVPR, 2015.
Links
論文 http://arxiv.org/pdf/1412.0296.pdf
著者 http://ttic.uchicago.edu/~gpapan/index.html

Keywords: Convolutional Neural Networks (CNN), Equivariance, Invariance, Equivalence
新規性・差分
手法と考察概要
画像の表現に関する調査．Equivariance, Invariance,
Equivalenceについて調査した．
CNNアーキテクチャの拡張についてまとめており，特に幾
何的な変化に対する頑健性を高めるために重要な調査であ
る．
Equivarianceは画像の変化による表現の変化であり，invarianceはその特
殊な例で，画像の変化によらず画像特徴などの表現が一定である．
Equivalenceはその2つの特性を保有する．ここではOxford Univ.の提案し
たCNNアーキテクチャであるVGG 16-layerを適用して，畳込まれた特徴
を幾何変換して画像の変動に頑健にする．変換行列は非常に単純であり，
図のように画素値や，特徴空間上での対応関係が取得できるようにする．
Transformation layerにより，CNNアーキテクチャのmid-level, high-level
な特徴を，回転フリーにする．さらにはstitching layerを導入することに
より，戦型フィルタによる特徴蓄積表現を実現する．画像の幾何的な変
換にも頑健に対応し，それらmid-level, high-levelな特徴量の組み合わせ
により物体を検出可能である．
K. Lenc, Andrea Vedaldi, “Understanding Image Representations by Measuring Their Equivariance and
Equivalence”, in CVPR, 2015.
Links
論文
http://www.robots.ox.ac.uk/~vedaldi/assets/
pubs/lenc15understanding.pdf

Keywords: DPM, CNN, CNN architecture
新規性・差分
手法
結果
概要
CNNのフレームワークの中にDPMを組み込むという提案．
HOGによる畳み込みや，そのプーリング手法を新規に提
案した．また，それによりCNNのプーリングの仕組みを理
解することができた．
DPMはHOG特徴量を用いているため，HOGのようなエッジ情報もプー
リングできる仕組みにするため，Max-poolingの一般化としてdistance
transform poolingを提案した．また，ブラックボックスであるCNNでな
く，うまくいくことがわかっている設計の特徴量を使うことで全結合層
を入れかえる．これをDeepPyramid DPMと名付けた．下はHOGとCNN
の第5層の特徴可視化である．HOGと比べるとCNN特徴量の方がより領
域を選択的に特徴学習している．
本論文では，distance transform poolingやobject geometryfilters, maxout
unitsの仕組みを導入することでHOGベースの特徴量でCNNのような特
徴抽出ができることがわかった．精度こそCNNに及ばないが，まだまだ
解明されていないCNNの学習法の解明に近づいたと言える．
R. Girshick, F. Iandola, T. Darrell, J. Malik, “Deformable Part Models are Convolutional Neural Networks”, in
CVPR2015.
Links
論文 http://www.cs.berkeley.edu/~rbg/papers/cvpr15/dpdpm.pdf
コード https://github.com/rbgirshick/DeepPyramid

Keywords: DeepID-Net, ILSVRC2014
新規性・差分
手法
結果
概要
The Chinese University of Hong Kong (CUHK)のグループ
がILSVRC2014にチャレンジした時の物体検出手法．
Max-poolingやAverage-poolingの代わりとしてDef-pooling
を提案することで，DPMのような形状変化に対する表現方
法を実現し，物体検出の精度向上に貢献した．
DeepID-NetではR-CNNをベースにしているが，さらに前処理としてbox
rejection, 画像や物体レベルのアノテーションによるパラメータ調整をす
る．次に，deformation constrained pooling (def-pooling)の適用により
DPMのようにカメラに対する写り方，配置や姿勢の変動に頑健な物体の
特徴取得ができる．Def-poolingはmax-poolingに置き換えることが可能．
ILSVRC2014の物体検出チャレンジにて50.3%，PASCAL VOC2007デー
タセットに対して64.1%での物体検出を実現した．複数のチューニング
があるが，やはりdef-poolingによる物体アピアランスの変動に対して柔
軟性を持たせたことが影響している．
W. Ouyang, X. Wang, X. Zeng, S. Qiu, P. Luo, Y. Tian, H. Li, S. Yang, Z. Wang, “DeepID-Net: Deformable Deep
Convolutional Neural Networks for Object Detection”, in CVPR2015.
Links
プロジェクト http://mmlab.ie.cuhk.edu.hk/projects/ImageNet2014.html

Keywords: Fisher Vectors (FVs), Convolutional Neural Networks (CNN)
新規性・差分
手法
結果
概要
物体認識の分野で一世を風靡したFisher Vectors (FVs)と
Convolutional Neural Netowrks (CNN)の適切な組み合わせ
による物体認識手法を提案．
物体認識の分野ではCNNが優位であるが，Fine-grained認
識においてはFVsの方が精度良く分類できるという事例も
あり，両側面のメリットを活かす方向でニューラルネット
のアーキテクチャを考案する．
FVs+CNNのアーキテクチャは，unsupervised layers (FVsの取得と公団
への引き渡し)とsupervised layers (Fully-connected layers)から構成され
る．FVsに関してはPCAにより圧縮したものとし，誤差逆伝播法も用い
ることとする．この統合型のニューラルネットによりmid-levelな特徴量
を取得できるという．
結果は，ILSVRC2012の優勝者AlexNetが17.0%のエラー率であったのに
対してFVs+CNNは17.6%のエラー率であると述べている．
F. Perronnin, D. Laulus, “Fisher Vectors Meet Neural Networks: a Hybrid Classification Architecture”, in
CVPR2015.
Links
論文
http://www.cv-foundation.org/openaccess/
content_cvpr_2015/papers/
Perronnin_Fisher_Vectors_Meet_2015_CVPR_paper.
pdf
プロジェクト
http://www.xrce.xerox.com/Research-Development/
Publications/2015-020

Keywords: Convolutional Neural Networks (CNN), Deformable Parts Model (DPM), Non-Maximum Suppression (NMS)
新規性・差分
手法
結果
概要
DPMやCNNはどちらも物体認識の分野にて成功を収めて
いる手法であるが，両者の特性の違いから，組み合わせに
より改良できないかを探った．
CNN, DPM, NMSの効果的な組み合わ
せを検討し，精度を向上させたことに
ある．また，Backpropagationにより精
度や位置ずれのエラーを修正可能であ
ることが分かった．
DPMは潜在変数にてパーツとその位置を保持する手法であり，CNNはニ
ューラルネットの自動学習特徴量により非常に高度な特徴抽出を実現で
きる．組み合わせてバウンディングボックスの位置ずれのエラーを最小
化するために構造化された損失関数を定義する．これは，Non-maximum
suppression (NMS)を用いることでモデル化できることが判明した．下図
は提案手法のフローであり，ピラミッド表現された画像からCNNの自動
学習特徴量を取得してDPMへの入力とする．別視点からキャプチャした
応答を返却し，NMSにより最終的な出力を得る．Backpropagationによ
り検出のエラー地は各工程にフィードバックされる．
実験ではVOC2007, 2011, 2012を用
いており，非常に高い精度を達成し
HOG-DPM, HSC-DPM, DP-DPMや初
期のR-CNNを上回る検出率を達成し
たが，最新のR-CNN(v4)には及ばな
かった．
L. Wan, D. Eigen, R. Fergus, “End-to-End Integration of a Convolutional Network, Deformable Parts Model and
Non-Maximum Suppression”, in CVPR2015.
Links

Keywords: Sparse CNN
新規性・差分
手法概要
CNNの畳み込み層の改良により，学習時間や特徴取得に要
する時間の短縮に成功した．
畳み込みをスパース表現することで，計算量を減らし，
CNNの計算時間を削減することに成功した．
CNNは物体識別や物体検出問題に適用されて，非常に有効な手法として
知られている．その中でも，VGGモデルは16もしくは19層から構成され
ており，ILSVRC2014のデータセットにおいてtop5のエラー率が7.4%に
なるなど，非常に高い精度を達成している．その一方，その学習時間は4
つのハイエンドGPUを用いてもなお，学習時間が1ヶ月近くもかかるの
が現状である．ここでは，畳み込みのカーネルをスパースにすることに
より効果的に計算時間を削減することができるという提案をする．畳み
込みの度に計算されるカーネルをよりスパースにすることで高速化．
B. Liu, M. Wang, H. Foroosh, M. Tappen, M. Pensky, “Sparse Convolutional Neural Networks”, in CVPR2015.
Links
論文
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/
Liu_Sparse_Convolutional_Neural_2015_CVPR_paper.pdf
図は従来のCNN(左)，提案手法
であるSparse CNN (SCNN, 右)
を示す．SCNNでは，2回に分割
してsparse kernel matrixにより
畳み込む．精度は若干落ちるも
のの，計算コストを減らし，
CPUでも高速に動作するよう改
善した．

Keywords: CNN, Parameter
新規性・差分
手法
結果
概要
CNNアーキテクチャのパラメータに関する考察．アーキテ
クチャの深さ，幅，フィルタサイズ，ストライドなど．
CNNのパラメータに関す
る評価．深さが最も重要な
ファクターであることを示
した．
CNNアーキテクチャに対して，構造の深さ，幅，フィルタサイズ，スト
ライドなどCNNのパラメータ設定について考察．層の深さが最も重要で
あり，幅やフィルタサイズはあまり重要でないということを実証した．
コアとなる設計としてはlayer replacementを提案する．これは，時間の
短縮のためいくつかの層は他の層に置き換えることができるという仮説
である．けかkとしては処理コストを抑えながら精度の高いモデルを実現
した．実験から(1) ニューラルネットの深さは精度向上のためにプライオ
リティが高く，幅やフィルタサイズを小さくしたとしても精度は向上す
る (2) 極端に深さが増えてくると，精度向上が頭打ちになる．この際に
は主に深さによって処理コストが大きくなり，幅やフィルタサイズに必
ずしもトレードオフの関係があるわけではない．
以上の知見を，AlexNetをベースラインとして改良した結果，top-5エラ
ー率が11.8%となり，ベースラインよりもエラー率が4.2%低下した．深
さdとフィルタサイズsの関係性を調査した結果，dが増えれば増えるほ
どフィルタサイズsは小さくできることが判明した．また，深さdと幅n
ではdが増えればnは狭くでき，フィルタサイズsと幅nの関係性において
は深さdほどのトレードオフの関係性は見られなかった．
K. He, J. Sun, “Convolutional Neural Networks at Constrained Time Cost”, in CVPR2015.
Links
論文
http://www.cv-foundation.org/
openaccess/
He_Convolutional_Neural_Net
works_2015_CVPR_paper.pdf
著者
http://research.microsoft.com/
en-us/um/people/kahe/

Keywords: CNN, Visualization
新規性・差分
手法概要
CNNの可視化表現方法に関する解析．
CNN特徴のみならず，従来のhand-crafted特徴に関しても
可視化できるフレームワークを提案した．
CNNは出力層を取り出してみると図1のような5つの表現方法が考えられ
る．ここでの提案は，CNN特徴量だけでなくSIFTやHOGを含めた特徴量
の逆変換的表現である．この変換をランダムノイズが混ざっている部分
から始め，画像特徴と画像の事前確率のみから表現する．画像の事前確
率に従って正規化や損失に関しても評価．また，HOGglesよりも簡潔か
つ効果的に可視化手法もできることを示した．特徴量からの復元も実施
しており，復元率の面でもエラー率が減少している．
A. Mahendran, A. Vedaldi, “Understanding Deep Image Representations by Inverting Them”, in CVPR2015.
Links
論文
http://www.robots.ox.ac.uk/~vedaldi/
assets/pubs/
mahendran15understanding.pdf
プロジェクト
https://github.com/aravindhm/deep-
goggle

Keywords: FaceNet, Face Recognition, Convolutional Neural Networks (CNN)
新規性・差分
手法
結果
概要
ほぼ100%の精度で顔認識できることが判明した．
(99.6%)
コンパクトな特徴量により，横顔や陰影を含む顔画像に対
しても頑健な顔の認識が可能である．
FaceNetはGoogLeNetのアーキテクチャから特徴量を取り出し，L2正規
化やLMNNによる損失関数により最適化して最終的な特徴量を得ている．
ネットワークの構造はGoogLeNetのinception moduleの5bまでをくぐり
抜けた特徴量をaverage pooling, 全結合，L2正規化により出力とする．
Labeled Faces in the Wild (LFW)やYoutube Faces DBを用いて実験を行
う．LFWでは99.6%の精度で，Youtube Faces DBでは95.12%の精度で
顔を認識できることが判明した．DeepFace [Taigman+, CVPR2014]より
も高い精度で顔認識を実現している．
Florian Schroff, Dmitry Kalenichenko, James Phillbin, “FaceNet: A Unified Embedding for Face Recognition and
Clustering”, in CVPR, 2015.
Links
論文
http://www.cvfoundation.org/openaccess/
Schroff_FaceNet_A_Unified_2015_CVPR_paper.pdf

Keywords: Convolutional Neural Networks (CNN), MPIIGaze dataset, Gaze Estimation
新規性・差分
手法
結果
概要
視線推定のための目検出にCNNを用い，さらには
MPIIGaze datasetを提案．
視線推定のデータセットに，長期観測を導入する．さらに
は，目領域の検出にCNN識別器を導入した．
視線推定を非制約(in the wild)の状況で行う．ラップトップPCに備え付け
のカメラから人物の顔を撮影しデータセットを構築するが，他のデータ
セットと異なるのは，45日間に渡り撮影し続けるという提案．照明や姿
勢の変動などに対する視線推定は，下図のCNN構造(Multimodal
Convolutional Neural Networks)が非常に有効であった．
右はMPIIGaze datasetや
Eyediap datasetに対する結果で
ある．
Xucong Zhang, Yusuke Sugano, Mario Fritz, Andreas Bulling, “Appearance-Based Gaze Estimation in the Wild”,
in CVPR, 2015.
Links
論文
http://perceptual.mpi-inf.mpg.de/files/2015/04/
Zhang15_arxiv.pdf
プロジェクト (データセットあり)
https://www.mpi-inf.mpg.de/departments/computer-vision-and-
multimodal-computing/research/gaze-based-human-computer-
interaction/appearance-based-gaze-estimation-in-the-wild/

Keywords: Action Detection, Convolutional Neural Networks (CNN)
新規性・差分
手法
結果
概要
行動検出問題のためのCNN特徴の統合．可視画像・モーシ
ョン画像からCNN特徴を取り出し，組み合わせることで位
置まで含めた行動識別が実現．
R-CNNにインスパイアされ，人物行動においても候補領域
抽出や識別を行った．
候補領域の抽出とCNN特徴による行動検出を行った．候補領域抽出には
Motion Saliencyを用い，オプティカルフロー強度の正規化により候補を
抽出した．CNNによる特徴抽出のために可視画像やフロー空間を画像化
して入力とした．CNNの第7層(fc7)から特徴を抽出して組み合わせるこ
とで行動検出を実現．識別器にはSVMを適用した．
UCF Sportsにおけるframe-APは68.1%，映像谷でタグ付けするvideo-AP
では75.8%の精度で行動検出に成功した．
Georgia Gkioxari, Jitendra Malik, “Finding Action Tubes”, in CVPR, 2015.
Links
論文 http://www.cs.berkeley.edu/~gkioxari/ActionTubes/action_tubes.pdf
プロジェクト http://www.cs.berkeley.edu/~gkioxari/ActionTubes/
コード https://github.com/gkioxari/ActionTubes

Keywords: Pedestrian Detection, Task-Assistant CNN (TA-CNN)
新規性・差分
手法
結果
概要
CNN特徴量と，歩行者検出のためのアトリビュート特徴を
組み合わせることにより，精度を高める．
Deep Learningの特徴量と回帰モデルにより歩行者の属性
特徴量を組み合わせることにより，精度を向上させた．
CNNの改良版であるTask-Assistant CNN (TA-CNN)を提案．TA-CNNで
は，歩行者と背景の学習以外にもアトリビュートのラベルを与える．人
物は帽子やバッグ，性別，オクルージョンなど，シーンには空・木・建
物・道路など．ニューラルネットの構造は6層であり，1-4層までが畳み
込みとプーリング層，5,6層が全結合層である．出力の200次元には歩行
者やそのアトリビュートが含まれる．Structural Projection Vector (SPV)
では，トップダウンで特徴を与え，第6層へと結合している．
実験ではCaltech datasetによる歩行者検出を実施しており，従来手法よ
りも良いことを示している．具体的には，エラー率が22.49%のkatamari
[Benenson+, ECCVW2014]や21.89%のSpatialPooling+よりも高精度な
20.86%のエラー率を実現．クロスデータセットにおいても，INRIAのデ
ータ学習でETH datasetにて34.99%のエラー率を達成．
Yonglong Tian, Ping Luo, Xiaogang Wang, Xiaoou Tang, “Pedestrian Detection aided by Deep Learning Semantic
Tasks”, in CVPR, 2015.
Links
論文
Tian_Pedestrian_Detection_Aided_2015_CVPR_paper.pdf
プロジェクト http://mmlab.ie.cuhk.edu.hk/projects/TA-CNN/

Keywords: Dense Trajectories, CNN, Trajectory-pooled deep convolutional descriptor (TDD)
新規性・差分
手法
結果
概要
Trajectoryベースの特徴量とCNNの特徴抽出を組み合わせ
た行動記述子であるTrajectory-pooled deep-convolutional
descriptor (TDD)を提案．
行動認識のデータセットに対して
最先端の精度を達成した．
UCF101にて91.5%, HMDB51にて
65.9%．
IDTによるHand-crafted features (HOG, HOF, MBH)やDeep-learned
features (TDD; trajectory-pooled deep convolutional descriptor)を組み合
わせて，最先端の精度を実現する行動認識手法を実装．CNNベースの特
徴には，画像空間とオプティカルフロー空間の入力を組み合わせたTwo-
stream ConvNet [Simonyan+, NIPS2014]を適用する．特徴を取り出す層
から以降の処理を省略すること，zero-paddingを行うことがTwo-stream
ConvNetに対してのチューニングである．さらに，特徴マップの正規化
や特徴のプーリングにより適切な統合方法を実現した．
右の表が各特徴量とその精度である．HMDB51とUCF101を用
いており，どちらも最先端の精度を実現した．また，IDTや
Two-stream ConvNetsからの精度向上が見られ，組み合わせに
よりさらに良好な精度を実現．
Limin Wang, Yu Qiao, Xiaoou Tang, “Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors”,
in CVPR, 2015.
Links
論文
Wang_Action_Recognition_With_2015_CVPR_paper.pdf
プロジェクト http://wanglimin.github.io/tdd/index.html

Keywords: Recurrent Neural Networks (RNN), Skeleton based Action Recognition
新規性・差分
手法
結果
概要
人物から取得したスケルトンをRecurrent Neural Networks
(RNN)への入力として，行動認識を実行する．
RNNにより姿勢ベースの行動認識を実現．また，パーツ毎
の分割や時系列情報を適応的に組み合わせていく手法を提
案した．
人物姿勢のスケルトンから関節情報を取り出し，RNNへの入力として行
動認識を実現する手法．まず姿勢から取得したスケルトンをパーツごと
に5分割して入力する．ニューラルネットの層が進んでいく毎に時系列情
報を強化していく．第1, 3, 5, 7層にbidirectional recurrently connected
subnets (BRNNs)を用いて隣接する関節の情報を統合していく．5層によ
り上半身・下半身，7層により全身の特徴を抽出できる．最後に全結合層
を経て，ソフトマックス関数により識別する．
MSR Action 3Dいて94.49%と非常に高い精度を実現した．
Y. Du, W. Wang, L. Wang, “Hierarchical Recurrent Neural Network for Skeleton Based Action Recognition”, in
CVPR2015.
Links
論文
Du_Hierarchical_Recurrent_Neural_2015_CVP
R_paper.pdf

Keywords: Deep Learning, Face Recognition, YouTube Faces dataset
新規性・差分
手法
結果
概要
従来型の顔認識DeepNet[Sun+, NIPS2014]を改良した論文．
早期の畳み込み層から取り出した特徴量を適用することで
顔認識の精度が向上することが判明した．
新たに顔認識用のCNNアーキテクチャを
構築し，非常に高い精度で顔認識を実現
できることが判明した．
下の図はブッシュ，ブッシュの部分遮 (オクルージョンへの対応)，ブ
ッシュの横顔(横顔への対応)，パウエル(別人への対応)の場面における活
性化関数の様子．オクルージョンや横顔であっても，本人への対応度が
良いことがわかる．DeepID2+netsでは，max-poolingで特徴を取得して
おり，55x47, 47x47次元(pixels)の特徴を入力とすることにより畳み込み
を実施している．その畳み込み層は4層から構成され，最終層では512次
元の特徴取得を行っている．DeepNetの学習にはCelebFaces+ dataset,
WDRef datasetやLFWに含まれているデータの統合を行っている．
顔認識においてこの体系化された
手法はDeepID2+と呼んでおり，
LFWデータセットにおいて
99.47%，YouTube Faces dataset
において93.2%を達成するなど，
かくデータセットでstate-of-the-
artとなる精度を達成した．
Y. Sun, X. Wang, X. Tang, “Deeply learned face representation are sparse, selective, and robust”, in CVPR2015.
Links
論文 http://arxiv.org/abs/1412.1265

Keywords: Event Detection, DevNet, CNN, TRECVID
新規性・差分
手法
結果
概要
イベント検出用のDeepNetアーキテクチャであるDeep
Event Network (DevNet)を提案．
・High-levelなビデオイベントに対してCNNアーキテクチ
ャを構築した最初の論文である．
・イベントに対して重要な手がかりを抽出するだけでなく，
その領域まで特定することが可能．
・Hand-crafted特徴を凌駕する精度を達成した．
DevNetではあらかじめ定義したイベントのみならず，重要な時系列イベ
ントのための手がかりまで抽出することを可能とする．アノテーション
はビデオレベルのみであっても，CNN特徴を手がかりにキーフレーム検
出やイベントの位置を検出することができる．また，提案手法のネット
ワークアーキテクチャはImageNetのPre-trainedモデルで構築，さらには
TRECVID MED データにおいてFine-tuningされている．
MED14のデータセットに
対してImproved DT+FVsが
32.88%の検出率だったの
に対して，DevNetは
33.29%という精度を実現
した．イベント認識の精度
はさらに向上するポテンシ
ャルを保持しており，今後
は時系列特徴をより有効に
導入する必要があるとした．
C. Gan, N. Wang, Y. Yang, D.-Y. Yeung, A. G. Hauptmann, “DevNet: A Deep Event Network for Multimedia Event
Detection and Evidence Recounting”, in CVPR2015.
Links
論文
Gan_DevNet_A_Deep_2015_CVPR_paper.pdf

Keywords: Multi-attribute, WWW Crowd dataset, multi-task learning
新規性・差分
手法
結果
概要
Deep Learningにより混雑状況下における複数Attributeを
返却するネットワークアーキテクチャを考案した．
混雑状況下における複数アトリビュート認識
を実現．ニューラルネットのアーキテクチャ
を考案しただけでなく，データセットも公開．
混雑状況下における解析データセットでは最大規模となるWWW Crowd
Datasetを作成した．WWW Crowd Dataset中には8257シーンから取得し
た10,000の動画，94の混雑状況下に関するAttribute(outdoor, indoor,
walking, pedestrian, standingなど)が含まれている．Attributeは環境や動
作，人物の種類に関するものが多く含まれている．つまり，どんな人が
何をしている，くらいはわかる問題設定である．Deep Learningのモデル
に関してはMulti-task learning deep modelであり，アピアランスと動作特
徴により特徴表現，最終層により両者の特徴を統合している．
表は提案手法とベースラインとの
比較である．提案手法が
DLSF(0.87)，DLMF(0.68), DLSF
+DLMF(0.88)と，特徴統合により
ベースラインよりも高い精度を実
現した．
マルチタスク学習による特徴の学
習も効果的に働いている．
J. Shao, K. Kang, C. C. Loy, X. Wang, “Deeply Learned Attributes for Crowded Scene Understanding”, in
CVPR2015.
Links
論文
http://www.ee.cuhk.edu.hk/~jshao/papers_jshao/
jshao_cvpr15_www.pdf
プロジェクト
http://www.ee.cuhk.edu.hk/~jshao/
WWWCrowdDataset.html
YouTube
https://www.youtube.com/watch?v=uIskaUyksHI

Keywords: Pedestrian Detection, CNN, KITTI, Caltech Pedestrian
新規性・差分
手法
結果
概要
歩行者検出に対してCNN特徴を用いる．
現在までの最高精度を出している手法はBoostingや
Decision Treesであるが，この可能性をさらに拡げるため
にCNNベースの歩行者検出を行った．
CNNの歩行者検出のためのチューニングについて検討した．その内容は
レイヤーの数やフィルタサイズ，トレーニングデータなどである．学習
にはCaltechやKITTIから歩行者画像を抽出した．
学習サンプル数が少ない場合にはCIFAR-10 (4層のアーキテクチャ)の構
造が性能が良かったが，より画像枚数が多くなってくるとAlexNet(8層の
アーキテクチャ)の方が良好な性能を示した．10^5~10^7のパラメータを
変動させても良好な性能を示す歩行者検出器を生成することに成功した．
提案手法であるSpatialPooling+はCaltech pedestrian benchmarkにおい
てエラー率21.9%を実現した．
J. Hosang, M. Omran, R. Benenson, B. Schiele, “Taking a Deeper Look at Pedestrians”, in CVPR2015.
Links
論文
http://arxiv.org/pdf/1501.05790.pdf
プロジェクト
https://www.d2.mpi-inf.mpg.de/content/
taking-deeper-look-pedestrians

Keywords: Cross-scene, Crowd Counting, CNN
新規性・差分
手法
結果
概要
群衆のカウントにおいて学習し，全く異な
るシチュエーション(cross-scene)にて適用
できるような仕組みを考案した．
従来のHand-crafted特徴の限界を超えるため
に群衆解析(crowd analysis)の場面における
さらに有効な特徴量の生成を行う．
群衆の人数カウントはオクルージョン，奥行きや視点変化，シーンにより分散が
あるためにチャレンジングな課題である．ある特定の場所に依存して学習するの
ではなく，全く違うシーン(cross-scene)にて適用できるようなモデルを構築する．
これにより，未学習シーンにおいても群衆のカウントができるという利点を取る
ことができる．シーンが異なると視点変化による歪み，見え方が変わるため，人
数カウントも困難になる．これを追加の学習なしに推定する手法を考案する．群
衆解析用の前景抽出も行っている研究が多いが，直接的に推定する手法とする．
ここでは，CNNを用いて群衆解析のcross-scene設定において人数カウントを実現
する．
CNNのモデルは，群衆の密度マップと人数カウントのモデルを切り替えられるようにしてい
る．このふたつのモデルは異なるが，互いに相関関係にあり，相補的によくする仕組みになっ
ている．このモデルを表現するために，出力層が密度マップ(324次元; 18x18pixels)か，1次元
の実数値に切り替えられるようにした．CNNのモデルは群集用にFine-tuneを施していること
や前景抽出に頼らなくても結果を得られることも新しい．さらにはデータセット
WorldExpo’10 crowd counting datasetも提案しており，108の異なるシーンにおいて約200,000
人がアノテーションされている群集解析の分野では最大規模のデータも配布する．LBP+リッ
ジ回帰，CNN特徴，Fine-tuned CNN，の比較においても提案手法が概ねエラー率が最も低く
なった．CNNとの比較から見ても，提案のCNNとスイッチによる回帰モデルが有効であるこ
とがわかる．
C. Zhang, H. Li, X. Wang, X. Yang, “Cross-scene Crowd Counting via Deep Convolutional Neural Networks”, in
CVPR2015.
Links
論文
openaccess/content_cvpr_2015/papers/
Zhang_Cross-
Scene_Crowd_Counting_2015_CVPR_p
aper.pdf

Keywords: Event Recognition, CNN
新規性・差分
手法
結果
概要
複数の識別結果や要素を統合して複雑なイベントの認識に
取り組む．CNN特徴量と物体・人物検出・顔検出の結果を
総合してイベントを認識する．
静止画に対して，複数の手がかりを用いて複雑なイベント
認識を実現した．さらには物体や人物のつながりが重要で
あることを実証した．
下図は2つのチャネルを統合したイベント認識のフレームワークである．
ひとつはCNNのconvolutionやpoolingによる特徴を取り出し，もう一方で
は物体・人物検出・顔検出の結果を取りだす．それぞれの特徴量を統合
して最終的なクラス分類のための特徴ベクトルとする．
・
Yuanjun Xiong, Kai Zhu, Dahua Lin, Xiaoou Tang, “Recognize Complex Events from Static Images by Fusing
Deep Channels”, in CVPR2015.
Links
論文
Xiong_Recognize_Complex_Events_2015_CVPR_paper.pdf

Keywords: CNN, Markerless MoCap, Pose Estimation
新規性・差分
手法
結果
概要
CNN特徴を用いたマーカレスモーションキャプチャに関す
る研究．いかに少ないカメラでモーションキャプチャを実
現するかにフォーカスした．
モーションキャプチャには通常マーカを用いてるが，マー
カを用いず，しかも2~3台のカメラ数でモーションキャプ
チャを実現した．
実用上は2~3台のカメラでマーカレスMoCapが実現すれば，設置のコス
トを削減することができる．ここでは，CNNによるLearning-baseな関節
位置の推定に挑戦する．カメラの台数が多すぎる(e.g. 8台)と処理時間が
かかり，単眼では精度が悪いという問題点があったので2, 3台で効率良
く探索するためにConvNetによる関節位置の推定を行う．データセット
は屋内や屋外環境からカメラや携帯カメラにて撮影された動画像を適用
してから姿勢を推定する．事前情報を導入してCNNによる尤度計算によ
り事後確率を計算するため，ロバストなマーカレスMoCapシステムとな
っている．屋外環境における照明が強い条件下においても姿勢の推定が
できている．プロジェクトページの動画参照．
A. Elhayek, E. de Aguiar, A. Jain, T. Tompson, L. Pishculin, M. Andriluka, C. Bregler, B. Schiele, “Efficient
ConvNet-based Marker-less Motion Capture in General Scenes with a Low Number of Cameras”, in CVPR2015.
Links
論文 http://gvv.mpi-inf.mpg.de/projects/convNet_moCap/vids/CVPR15.pdf
プロジェクト http://gvv.mpi-inf.mpg.de/projects/convNet_moCap/

Keywords: Object Detection, R-CNN
新規性・差分
手法
結果
概要
R-CNNによる位置ずれを最適化して適切な位置に合わせる
という試み．
R-CNNの物体検出においては，最初に候補領域として抽出
した枠にとらわれて最適な検出位置に最適化することがで
きないため，その問題を解決するために構造化学習の枠組
みを取り入れて識別と位置特定を同時に解決していく．
(1)ベイズ最適化を用いることで，検出枠の統合を精度良く行う．(2)
CNNを用いた物体検出のために構造化学習を取り入れる． (3) ベイズ最
適化や構造化学習は汎用的に他のCNNのモデルでも適用できるようにす
る．下図は実際の物体検出の様子である．最初にselective searchにより
荒く検出枠を出力する．各工程でCNNの識別により出力していき，適応
的に値を参照して最適な位置関係に検出枠が来るように補正．
PASCAL VOC 2007や2012のデータセットにおいてR-CNNよりも精度が
向上している．
Yuting Zhang, Kihyuk Sohn, Ruben Villegas, Gang Pan, Honglak Lee, “Improving Object Detection with Deep
Convolutional Networks via Bayesian Optimization and Structured Prediction”, in CVPR, 2015.
Links
論文
http://www.ytzhang.net/files/publications/
2015-cvpr-det.pdf

Keywords: Object Localization, Weakly-supervised Learning, Convolutional Neural Networks (CNN)
新規性・差分
手法
結果
概要
画像レベルのラベル付けから，物体の識別や位置の特定は
できるかどうかに挑戦する論文．
弱教師あり学習(Weakly-supervised learning)をCNNに導入
することにより，タグ付けがリッチでなくても画像中に複
数物体が存在する際の識別や位置特定について評価できる．
CNN特徴と，弱教師あり学習により荒いタグ付け情報から物体の識別や
物体検出を実現する．左図がネットワークアーキテクチャであり，end-
to-endで特徴取得からweakly-supervised学習まで実行できる．これによ
り，画像レベルで複数のラベルを出力できるに至っている．また，物体
検出のために複数のスケールに対応している．Global max-poolingの層を
追加することにより，画像中のオブジェクト位置を検索し，さらには明
示的に画像内に存在する複数の物体をモデル化できるコスト関数を使用
する．
PASCAL VOCのClassificationにて86.3%，Locationにて74.5%もの精度
を達成した．
Maxime Oquab, Leon Bottou, Ivan Laptev, Josef Sivic, “Is object localization for free? – Weakly-supervised
learning with convolutional neural networks”, in CVPR, 2015.
Links
論文 http://www.di.ens.fr/~josef/publications/Oquab15.pdf
プロジェクト http://www.di.ens.fr/willow/research/weakcnn/

Keywords: Object Detection, Region Pooling, Multiple Models
新規性・差分
手法
結果
概要
物体検出に対して，物体の内的な変化やバリエーションの
多様性を考慮し，特徴プーリングを改善することで位置ず
れを相殺する．
Region Poolingにより，物体の姿勢や見え方の変動に対し
てロバストに検出することができる．
Coarse Region Matchingによる物体候補領域抽出，Region Poolingによ
る特徴取得を実行する．プーリングと同時にセグメンテーションも行い，
より特徴抽出のフレームワークを拡張する．さらには角度や物体の種類
を考慮したexemplarベースの特徴抽出や分離性が高い物体内部のパーツ
を発見しながら特徴を取得する．Exemplarの概念により角度や見え方を
えたソース画像をあらかじめセグメンテーションしてパーツごとに分
離し，ターゲット画像に合わせてリサイズする．その上でターゲット画
像から特徴を抽出してプーリングすることでソース画像と似通った特徴
量が取得できる．感覚的には，同じような見え方周辺の画像を集めて特
徴空間を埋めていく．
精度比較では，多くの場合DPMやCNN単体の手法よりも高い精度を出す
ことがわかった．
Yi-Hsuan Tsai, Onur C. Hamsici, Ming-Hsuan Yang, “Adaptive Region Pooling for Object Detection”, in CVPR,
2015.
Links
論文
Tsai_Adaptive_Region_Pooling_2015_CVPR_paper.pdf

Keywords: Convolutional Neural Networks(CNN), Pattern Mining, Association Rules
新規性・差分
手法
結果
概要
Deep Learningによる特緒量をマイニングすることによ
り，有効な特徴量を特徴空間中から抽出できる．
CNNの特徴量をマイニングによりサブセットに落とし込む
ことができる．次元の削減を実行しつつ高精度な認識がで
きる．
Caffeによる実装，モデルはAlexNetを用いており，第6層の全結合層から
特徴量を取り出す．マイニングにはAssociation Rulesを用いており，探
索空間は上位N次元の数値を用いる．Association Rulesでは次元数が多
いと探索が非常に困難になるため上位N次元と限定している．同クラス
の物体であれば特徴の強度分布も類似するという戦略でサブセットを作
成．
表はMIT Indoor Datasetに対する提案法と従来法の比較．提案法の50の
要素を用いた場合では69.69%の精度であり，従来法のいずれの結果より
も高精度．
Yao Li, Lingqiao Liu, Chunhua Shen, Anton van den Hengel, “Mid-level Deep Pattern Mining”, in CVPR, 2015.
Links
論文
content_cvpr_2015/papers/Li_Mid-
Level_Deep_Pattern_2015_CVPR_paper.pdf
プロジェクト https://github.com/yaoliUoA/MDPM

Keywords: Deep Domain Adaptation, Attribute
新規性・差分
手法
結果
概要
Fine-Grainedな衣服属性を持つ人々の特徴記述とDomain
Adaptationに関する研究．
現在までのattribute特徴をより詳細にすることにより，よ
りよい衣服のサービスに役立てられる．
記述方法としてオブジェクト由来の複数のラベルを生成するDeep
Domain Adaptation Networkを提案．RCNNによる検出により人体を切り
出し，各画像の特徴量を抽出し，source domain/target domainの転移を
計算．さらにそれぞれの層を統合することで複数の属性を推定すること
が可能になる．また，衣服に関する大規模データセットを準備し，より
詳細な属性を推定することに成功した．
右は詳細なラベル推定の正答率
を示す．従来ではできなかった
詳細属性の推定も本研究におけ
るDeep Domain Adaptationに
より可能にした．
Qiang Chen, Junshi Huang, Rogerio Feris, Lisa M. Brown, Jian Dong, Shuicheng Yan, “Deep Domain Adaptation
for Describing People Based on Fine-Grained Clothing Attributes”, in CVPR, 2015.
Links
論文 http://rogerioferis.com/publications/DDANCVPR2015.pdf

Keywords: Deep Hashing, Binary Coding
新規性・差分
手法
結果
概要
バイナリハッシング(Binary Hashing)にディープラーニン
グを適用したDeep Hashing(DH)を提案．
CNNの物体に対する特徴類似性を，バイナリハッシングに
導入してハッシングの性能を高めることに成功した．
バイナリハッシングでは似たような画像が同じようなハッシング値にな
ることが理想だがCNNの特徴類似性を用いて画像の主要な成分を取り出
して類似度の高いハッシング値にしようというトライ．各畳み込み層で
はProjection matrixとバイアスベクトルを表現，最終層を取りだしてバイ
ナリ出力．
また，Deep Hashingは教師なしのバイナリハッシングであるが，
supervised deep hashing (SDH)も同時に提案する．各画像から特徴抽出
してペアを作成し，positive(対象と同じクラス)は距離が近くなるように，
negative(対象とは異なるクラス)は距離が遠くなるようにハッシングする．
Unsupervised, supervisedそれぞれ評価した結果が下の表である．デー
タにはCIFAR-10を用いており，unsupervisedな手法においてスタンダー
ドな手法であるPCA-ITQ[Gong+, CVPR2011]からの精度向上が見られる．
Supervisedな手法においてはいずれも最高性能を実現した．
V. E. Liong, J. Lu, G. Wang, P. Moulin, J. Zhou, “Deep Hashing for Compact Binary Codes Learning”, in
CVPR2015.
Links
論文
Liong_Deep_Hashing_for_2015_CVPR_paper.pdf

Keywords: CNN, Geolocalization
新規性・差分
手法
結果
概要
路上で撮影した画像をクエリとして，空撮画像上の位置を
特定する問題設定．
学習画像とテスト画像が全く異なる性質のマッチング問題．
SIFTなどの方法ではマッチング精度が極めて悪い状況に対
して，提案手法では高い精度で位置を特定することが可能．
提案はground-levelの画像をクエリとして，空撮画像の位置を特定する問
題である．ここでは公開データセットから78000枚の画像ペアを用いる．
この地面から撮影された画像(ストリートビュー)とと空撮画像をペアと
して位置特定する問題が新しい設定である．特徴量としてはCNN特徴を
用いており，この問題設定と合わせた手法のことをWhere-CNNと呼んで
いる．データセットには7つの都市– San Francisco, SanDiego, Chicago,
Charleston, Tokyo, Rome, Lyonから撮影された画像が含まれる．
比較のためにhand-crafted特徴，オリジナルのCNN特徴，Fine-tuned
CNN特徴を用いる．論文ではSiamese Network, DeepFace,
DeepRankingを参考にしたと述べている．学習では，ストリートビュー
画像x と空撮画像yをペアとして，それぞれ同じ構造の2つのCNNに別々
に入力してペア(x,y)を学習する．(ストリートビュー画像x=> CNN1, 空
撮画像y=> CNN2 といった具合に) 提案手法の精度は43.6%であり，最も
高い精度を示した．以下，ImageNet-CNNが11.3%, hand-crafted特徴が
7.6%, ランダムで4.8%である．
T.-Y. Lin, Y. Cui, S. Belongie, J. Hays, “Learning Deep Representations for Ground-to-Aerial Geolocalization”, in
CVPR2015.
Links
論文 http://www.cc.gatech.edu/~hays/papers/deep_geo.pdf
プロジェクト http://www.yincui.org/publication.html

Keywords: Segmentation, Fine-grained Localization, Convolutional Neural Networks (CNN)
新規性・差分
手法
結果
概要
CNNにより詳細な(Fine-grained)物体のセグメンテーショ
ンと位置合わせに取り組む．
R-CNNはCNNの特徴量を取り出しているが，物体検出や
セグメンテーションのための特徴としては荒いので，途中
の層の情報も用いることで物体検出からセグメンテーショ
ンにまで応用を広げている．
Hypercolumnsによる特徴表現を実現した．CNNの特徴取得としては，第
2プーリング層(pool2)，第4畳み込み層(conv4)，第7層の全結合層(fc7)で
ある．これらの組み合わせにより，位置情報の正確さと属性情報推定の
精度を確保することができる．左図はHypercolumnsによる表現であり，
このフレームワーク内にてpool2+conv4+fc7の特徴統合を行いセグメンテ
ーションとローカライズを同時に行う．
右図はセグメンテーションの結果を表した図である．上の行が従来手法
によるセグメンテーション，下の行が提案手法によるセグメンテーショ
ンの結果である．
Bharath Hariharan, Pablo Arbelaez, Ross Girshick, Jitendra Malik, “Hypercolumns for Object Segmentation and
Fine-grained Localization”, in CVPR, 2015.
Links
論文
http://www.cs.berkeley.edu/~rbg/papers/cvpr15/
hypercolumn.pdf

Keywords: Saliency, Multiscale Deep Features, CNN
新規性・差分
手法
結果
概要
Saliencyベースのセグメンテーション．マルチスケールで
CNN特徴を取得した．
視覚的顕著性に用いられているマルチスケール特徴を，convolutional
neural networks (CNN)の特徴に置き換え，精度を向上させている．3種
類の異なるスケールにて，CNNの全結合層の特徴量を入力することによ
り顕著性のモデルを構築する．下図は顕著性を生成するためのモデルで
ある．従来ではエッジや色によるマルチスケール特徴量を計算していた
が，それをCNN特徴量により置き換える．
G. Li, Y. Yu, “Visual Saliency Based on Multiscale Deep Features”, in CVPR2015.
Links
論文
http://arxiv.org/pdf/1503.08663v3.pdf
プロジェクト
https://sites.google.com/site/ligb86/
mdfsaliency/
Visual saliencyのモデルを新規に
提案しただけでなく，特徴量を
CNNに置き換えた．

Keywords: Fine-grained Image Classification, Convolutional Neural Networks (CNN)
新規性・差分
手法
結果
概要
詳細画像認識(Fine-grained Image Classification)のための
CNNアーキテクチャ．候補パッチの抽出，特徴選択や識別
を行う．
現在までの詳細画像認識はDPMの領域内で密に特徴量を取
得する方法が最先端であった．ここでは，CNNにより領域
の抽出や特徴取得や識別までを実行する方法について提案
する．
Fine-grainedな認識では，重要な部分から特徴を抽出する必要があるため，
CNNの構造の中にこの機能を加える．まずは候補領域の抽出，その中で
特徴選択し，最終的に必要なベクトルを抽出する．特徴選択である
FilterNetでは，ImageNetモデルにより識別を行いbirdやdogなどのひとつ
上の階層の出力を行い結果を投票する．次のネットワークである
DominantNetでは，birdクラスと判別されたパッチからより細かい特徴を
取り出して最終的な識別結果を得る．
モデルはOxfordのVGGを用いて，two-level attentionを適用した．
ImageNet2012のdogカテゴリに対してerror: 28.1%，birdクラスに対して
はerror: 11.0%を達成．
T. Xiao, Y. Xu, K. Yang, J. Zhang, Y. Peng, Z. Zhang, “The Application of Two-level Attention Models in Deep
Convolutional Neural Network for Fine-grained Image Classification”, in CVPR, 2015.
Links
論文
Xiao_The_Application_of_2015_CVPR_pa
per.pdf

Keywords: Fine-grained recognition, CNN, Super-type, Factor-type
新規性・差分
手法
結果
概要
Fine-grained Image Classification (FGIC; 詳細画像識別)に
関するCNN特徴量の提案．一般にFGICはクラス内分散が
大きく，クラス間の距離が近いため，非常に難しい課題で
ある．提案手法はFine-tuningに依存することなく構造的に
FGICの問題の解決に取り組む
タスク限定型のdata-augmentationを行った．また，定義
した複数の構造化クラスにおいてマルチタスク学習を適用
してCNN特徴量を学習した．
FGICのためのCNN学習についての研究である．Intra-class(車の車種や鳥
の種類の認識など)の特徴表現が重要であり，それらをいかに捉えて識別
するかが重要．手法の一番の特長はタスク限定によりデータを拡張でき
ることである．構造にはsuper-type表現(e.g. 犬の下にさらに下位の種類
がある)とfactor-type(e.g. 別角度から撮影された車)があると主張してい
る．マルチタスク学習をディープラーニングに導入してsuper-typeや
factor-typeな表現をいかに学習してFGICに有効な特徴量を取り出すかを
基本的な課題としている．
Stanford Dogs datasetやStanford Cars datasetに対して識別を実施した．
それぞれ49.4%，80.8%と高い性能を示した．
S. Xie, T. Yang, X. Wang, Y. Lin, “Hyper-class Augmented and Regularized Deep Learning for Fine-grained
Image Classification”, in CVPR2015.
Links
論文
http://vcl.ucsd.edu/~sxie/pdf/hyper-cvpr2015.pdf

Keywords: Deep Neural Networks (DNN), Fine-grained Recognition, Caltech-UCSD Bird-200-2010 dataset
新規性・差分
手法
結果
概要
Fine-grained認識のために必要な部分的な位置や角度
(alignment)の変化を，ニューラルネットのBack-ward
propagationにより対応する手法の提案．
Fine-grained認識のための位置合わせ(Localization)，角度
合わせ (Alignment)，さらには識別 (Classification)をディー
プラーニング内にて実装した．この仕組みDeep LACを提
案したことが新規性である．
主にValve Linkage Function (VLF)を提案し，識別や位置，角度に関する
誤差をBackward propagationにより繰り返し修正する．Fine-grained認識
では識別に有効な位置や角度を合わせることが非常に重要であるため，
この構造が識別にもダイレクトで効いてくる．下図のように鳥の検出画
像から識別に有効とされる頭部を取り出すだけでなく，特徴抽出のため
の角度までえる仕組みを考案した．
Caltech-UCSD Bird-200-2011, Caltech-UCSD Bird-200-2010 datasetを用
いて実験を行った．提案手法はそれぞれ65.25%, 80.26%とトップの性能
を実現した．
D. Lin, X. Shen, C. Lu, J. Jia, “Deep LAC: Deep Localization, Alignment and Classification for Fine-grained
Recognition”, in CVPR2015.
Links
論文
http://www.cv-foundation.org/openaccess/content_cvpr_2015/
papers/Lin_Deep_LAC_Deep_2015_CVPR_paper.pdf
データセット
http://www.vision.caltech.edu/visipedia/CUB-200-2011.html

Keywords: 3D Recognition, Deep Shape Descriptor
新規性・差分
手法
結果
概要
3次元物体認識のためのDeep特徴量である，3D Deep
Shape Descriptorを提案する．
3次元幾何形状の検索において，非常に高い性能を示す特
徴量，Deep Shape Descriptor(DeepSD)を提案した．
構造的に形状に分散がある場合やノイズ，3次元的に欠損を含む形状であ
ってもロバストな3次元特徴量を提案する．ここで，アイディアとして3
次元点群ベースのheat kernel signature (HKS)とeigen-shape descriptor
(ESD) & fisher shape descriptor (FSD)の組み合わせに特徴量を構成．
実験の結果，ESDやFSDがクラス間の識別を有効にしていることが判明
した．表はSHREC10データセットにて，Shape Googleと比較した結果
である．
Y. Fang, J. Xie, G. Dai, M. Wang, F. Zhu, T. Xu, E. Wong, “3D Deep Shape Descriptor”, in CVPR2015.
Links
論文
Fang_3D_Deep_Shape_2015_CVPR_pa
per.pdf

Keywords: DeepShape, 3D Shape Matching
新規性・差分
手法
結果
概要
3次元物体のマッチングと検索問題のため
のCNN特徴量の提案．
3次元の形状記述に関しては，D2
Shape DistributionやStatistical
Momentsが提案されており，BoFを用
いている例もあるが，CNNの自動特徴
学習の仕組みを3次元物体認識にも導入
した．
提案手法では，Auto-encoder(自己符号化器)ベースの形状記述子を用いて3次元形状の
検索に用いる．これにより，Hidden layerにて識別に有効な特徴量を取り出すことがで
き，3次元の幾何的な形状が複雑であったとしても識別が容易になる．Auto-encoderは
学習サンプルを用いてデータを表現する特徴のパラメータを最適に学習してくれる仕組
みのことであり，今回は3次元の物体形状を表現し，しかも他のクラスとの識別性能を
良好にするようなパラメータを取り出す．Auto-encoderの目的関数を最適かするために
back-propagation(誤差逆伝播法)を用いてパラメータを最適かする．
McGill Shape datasetやSHREC’10 ShapeGoogle datasetを用いた実験の結果，剛体だ
けでなく非剛体においても高い精度での認識を実現できることが分かった．McGill
datasetにおいてNN:98.8%, 1-Tier: 78.2%, 2-Tier: 83.4% (2-Tierは最高がGraph-based
methodの91.1%)，SHREC‘10 ShapeGoogle datasetにて Isometry: 99.8%, Topology:
99.6%(VQ, UDL, SDLが100%), Isometry+Topology: 98.2%, Partiality: 97.3%,
Triangulation: 95.5%を達成した．
J. Xie, Y. Fang, F. Zhu, E. Wong, “DeepShape: Deep Learned Shape Descriptor for 3D Shape Matching and
Retrieval”, in CVPR2015.
Links
論文
Xie_DeepShape_Deep_Learned_2015_CVPR_paper.pdf

Keywords: CNN, Motion Blur Removal
新規性・差分
手法
結果
概要
カメラ撮影時の手ぶれなどにより発生する不規則なモー
ションブラーを，CNNを用いて解析し，補正する研究．
モーションブラーの推定のためにネットワークアーキテク
チャを新規に考案したことや，ペア学習を行い，モーショ
ン場を推定する手法を考案した．
提案手法ではパッチを設定して，CNN特徴によりモーションカーネルの
確率を計算する．さらに，Markov Random Field (MRF)も用いることで
パッチ内の確率場の計算をデンスに行うことができる．モーションフィ
ールドを推定するために，パッチサイズはオーバーラップを含む
30x30pixelsに設定する．このモーションを学習するために，140万のの
ブラーを含むパッチとそのブラーの方向・強度をペアとしてCNNの学習
に与える．CNNは6層構成，出力層はソフトマックスにより構成され，
361種類のモーションカーネルを推定できる．また，MRFにより密なモ
ーションフィールドを推定する．
下記は入力のブラーを含む画像と出力のデブラーした結果が表示されて
いる．中央にモーションブラーが推定された画像が表示されている．
J. Sun, W. Cao, Z. Xu, J. Ponce, “Learning a Convolutional Neural Network for Non-uniform Motion Blur
Removal”, in CVPR2015.
Links

Keywords: Shadow Detection, Deep Edge Detection
新規性・差分
手法
結果
概要
CNNを用いた影領域推定手法の提案．パッチ単位でCNN
特徴を抽出し，影のエッジを検出した．
影領域エッジ検出のためのCNNアーキテクチャを構成した．
最適化も実装して高精度な影領域エッジ検出を実現した．
CNNのアーキテクチャは7層から構成され，25種類のラベルを推定する
問題である．入力のパッチは28x28pxlsであり，2つの畳み込み層，マッ
クスプーリング層からなる．さらには全結合層も導入している．第1, 2
の畳み込み層はそれぞれ6, 12種類の5x5pxlsのカーネルを採用した．
Local/GlobalなShadow/Brightnessの最適化も行い，影領域の特徴最適化
も行った．
UCF, UIUC, CMU shadow datasetに対して処理を影領域エッジの検出を
行った．提案手法はそれぞれ93.1%, 93.4%, 94.0%と高精度な検出を実
現した．
Li Shen, Teck Wee Chua, Karianto Leman, “Shadow Optimization from Structured Deep Edge Detection”, in
CVPR2015.
Links
論文
openaccess/
Shen_Shadow_Optimization_
From_2015_CVPR_paper.pdf

ご質問，コメント等ありましたら
cvpaper.challenge[at]gmail[dot]com / Twitter@CVPaperChalleng までお願いします．

cvpaper.challenge@CVPR2015(Deep Neural Networks)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (12)

Similar to cvpaper.challenge@CVPR2015(Deep Neural Networks)

Similar to cvpaper.challenge@CVPR2015(Deep Neural Networks) (8)

cvpaper.challenge@CVPR2015(Deep Neural Networks)