【2016.01】(1/3)cvpaper.challenge2016

cvpaper.challenge
Twitter@CVPaperChalleng
http://www.slideshare.net/cvpaperchallenge
MAILTO: cvpaper.challenge[at]gmail[dot]com

Keywords: Dataset, Scene Categorization, Benchmark, Recognition
新規性・差分
データセットの概要
結果
概要
コンピュータビジョンにおいてシーン認識のデータベースである
Scene UNderstanding (SUN) databaseを提案．シーン認識の裾
野を広げた．
それまでの物体認識のデータセットでは数百クラスの識別クラ
スが用意されていたが，シーン認識では15種類程度しか含ま
れていなかった．SUN databaseでは，それまでのデータセットを
さらに拡大させ，397クラスのシーンを含む，大規模なデータ
セットである．
シーン認識に関する397クラス，130,519枚の画像が含まれる．
画像例は次ページ．比較した特徴量は，HOG, denseSIFT,
self-similarity (ssim), LBP, GIST, textonなど．
次ページの図の通り．全ての特徴量を統合するのが最も精度が高いこと
が判明した(38.0%)．次いでHOG2x2 (27.2%), geometry texton hist (23.5%),
ssim (22.5%), dense SIFT (21.5%)であった．
Jianxiong Xiao, James Hays, Krista A. Ehinger, Aude Oliva, Antonio Torralba, “SUN Database:
Large-scale Scene Recognition from Abbey to Zoo”, in CVPR2010.
【1】
Links
論文ページ：
http://cs.brown.edu/~hays/papers/sun.pdf

プロジェクトページ：
http://vision.princeton.edu/projects/2010/SUN/

HOG https://hal.archives-ouvertes.fr/inria-00548512/document
GIST http://cvcl.mit.edu/scene_understanding.html
SSIM
http://www.researchgate.net/profile/Eli_Shechtman/publication/221362526_Matching_Local_Self-
Similarities_across_Images_and_Videos/links/02e7e520897af25746000000.pdf
DenseSIFT http://www.vision.caltech.edu/Image_Datasets/Caltech101/cvpr06b_lana.pdf
LBP http://www.outex.oulu.fi/publications/pami_02_opm.pdf
Sparse SIFT http://www.robots.ox.ac.uk/~vgg/publications/papers/sivic04b.pdf
Texton http://www.ics.uci.edu/~fowlkes/papers/mftm-iccv01.pdf

SUN databaseの一例実験結果

Keywords:Saliency, object detection, objectness, PASCAL VOC 07 dataset Baysian framework
新規性・差分
手法
結果
概要
画像中の注目度領域の検出として，objectnessを提案している．
4つの指標を用い，ベイズの枠組みでobjectnessを実現してい
る．
objectonessの4つの指標を組み合わせて使用した

4つの指標
・multi-scale saliency(MS)

・color contrast(CC)

・edge density(ED)

・syperpixels straddling(SS)
4つの指標を，ベイズの枠組みで統合している．
Bogdan Alexe, Thomas Deselaers, Vittorio Ferrari, “What is an object ?”, in CVPR, 2010.
【2】
Links
・論文
・プロジェクトページ(コードあり)
PASCAL VOC 07datasetで実験した．実験結果はDR-STN curvesで評価
している．
DR：detection rate
STN：signal to noise

Keywords: 3D Pose estimate, Human Eva II dataset, tracking by detection
新規性・差分
手法
結果概要
単眼カメラでの3次元姿勢推定．
混雑状況においても実現できるよう，3段階の処理を加えてい
る．
Human Eva IIベンチマークで最先端の結果を示した．

従来の単眼カメラでの3D姿勢推定は，かなり制限のある環境
でのみ実現されてきた．それに対し，本手法は雑多な環境で
も実現できるように手法を設計した．
はじめに，1フレームから人物の視点と2D関節を推定する．
次に，フレーム間の関連性を，tracking by detectionに基づい
て求める．
最後に，追跡情報から3Dの姿勢を復元する．

Human Eva II datasetで実験した結果
Mykhaylo Andriluka, Stefan Roth, Bernt Schiele, “Monocular 3D Pose Estimation and Tracking by Detection”, in
CVPR, 2010.
【3】
Links
論文：http://www.gris.informatik.tu-darmstadt.de/~sroth/pubs/cvpr10andriluka.pdf

プロジェクトページ：https://www.d2.mpi-inf.mpg.de/node/428

Keywords: Deep Learning, Convolutional Neural Networks (CNN), Visualization, AlexNet, Caltech 101, Caltech 256
新規性・差分
手法
結果
概要
Deep Learningは非常に有効な特徴量を抽出することで知られ
ているが，その構造はブラックボックスであった．本稿ではCNN
特徴を可視化することにより少しでも特徴抽出に関する理解を
深める．
Deep Learningによる識別を行うだけでなく，可視化を行う．ここ
ではAlexNetを適用している．可視化により，特徴量の傾向を把
握し，さらに識別精度の高いモデルを構築できる．
次ページに可視化のフロー図を示す．
下図は可視化の例である．識別に有効な特徴量を選択して可視化してい
る．層が進むほど高次な特徴になっている．
Matthew D. Zieler, Rob Fergus, “Visualizing and Understanding Convolutional Networks”, in ECCV, 2014.
【4】
Links
論文ページ
http://www.matthewzeiler.com/pubs/arxive2013/eccv2014.pdf

著者ページ
http://www.matthewzeiler.com/

著者による講演動画
https://www.youtube.com/watch?v=ghEmQSxT6tw

Keywords: Person re-identification，iLIDS，VIPeR，ETZH，SDALF，Color Feature
新規性・差分
手法
結果概要
人物の対称性を用いたPerson Re-IDの提案．Stmmetry-
Driven Accumulation of Local Features(SDALF)と呼ばれてい
る．
iLIDS, VIPeR, ETZH datasetで実験し，有効性を確認した．
従来のPerson Re-IDは，色特徴やテクスチャ特徴などの設計
方法に焦点が当てられていた．しかし，本論文では，「人物は左
右で対称性がある」という構造情報を加える事で，Re-IDの精度
を向上させている．
はじめに，人物領域から顔・胴体・下半身を分離し，胴体と
下半身は対称性があるとして領域分割する．次に，各領域
から特徴(Weight Color Histgoram，Maximally Stable Color
Regions，Reccurent High-Structures Pathes)を抽出する．
最後に，特徴を重み付けした距離計さんによってマッチング
する
iLIDS, VIPeR, ETZH datasetで実験した結果が以下のとおり
M. Farenzena, L. Bazzani, A. Perina, V. Murino, M. Cristani, “Person Re-Identification by Symmetry-Driven
Accumulation of Local Features ”, in CVPR, 2010.
【5】
Links
・PDF：http://www.lorisbazzani.info/papers/proceedings/FarenzenaetalCVPR10.pdf

・Project：http://www.lorisbazzani.info/sdalf.html

・Code：https://github.com/lorisbaz/SDALF

実験結果はCMC曲線で評価されている．CMC曲線は，横軸にRank，
縦軸に累積確率をとっており，面積が大きいほど性能が高い．

Keywords:Automatic Attribute Discovery, Automatic Characterization and MiLBoost
新規性・差分
手法
結果
概要
Web上の画像から自動的に物体判別のための属性を抽出
するシステムを提案した．
・物体を識別するための特徴を自動的に発
見・順位付けができる．

・人の手でラベル付けする必要なく，物体の
appearance modelを学習できる．

・特定のための属性として，外見的特徴だ
けでなく，その特徴が局所的な特徴か全体
的な特徴かの尺度(Localizability)を持つ．
外見的特徴としては色・形状・テクスチャを
用いている．

1.Webから大量の画像とその説明文を集める．
2.集めた説明文から画像の特徴の属性の検出や順位付けをす
る
3.順位の高い属性を外見的特徴として，MIL Boostを用いて属性
ごとのLocalizabilityを設定する．

Web上のイヤリングとバック，ネクタイ，靴の画像
に対して提案システムを用いて属性付けした．
人が属性付けしたデータと比べて，
イヤリングとバックで80%，ネクタイで90%，靴で70%
の精度で正しく属性付けできた．
TL Berg, AC Berg, J Shih, “Automatic Attribute Discovery and Characterization from Noisy Web Data”, in
ECCV, 2010.
【6】
Links
論文

Keywords:Person Re-ID, Metric Learning, PRDC,
新規性・差分
手法
結果概要
Person R-IDにおけるMetric Learningの提案．Probabilistic
Relative Distance Comparison(PRDC)．実験の結果，ブースティ
ングなどの手法よりも高性能となった．
從來手法ではクラス内分散を最小化することに焦点が当てられ
ていたが，それよりも，ペアワイズに学習することで正しいクラス
の尤度を最大化している．これにより，外観変化に頑健になり，
モデルの過学習を防ぐことが出来る．
クラス内分散を最小化するのではなく，ペアワイズに学習
することで正しいクラスの尤度を最大化している．
Wei-Shi Zheng, Shaogang Gong and Tao Xiang, “Person Re-identification by Probabilistic Relative Distance
Comparison”, in CVPR, 2011.
【7】
Links
論文：http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5995598

Keywords: Person Re-ID, HSV, YCrCb, RGB, Gabor, Schmid, attribute
新規性・差分
結果
概要
Person Re-IDにおける複数の外観特徴の有効性を調査してい
る．RGB・HSV・YCrCb・Gabol Filter・Schmid Filterに対して実
験している．
從來，多くの外観特徴が提案されてきたが，どの特徴が有効
か調査されていなかった．そのため本論文では，複数の特徴
を適用して有効性を調査している．
Chunxiao Liu, Shaogang Gong, Chen Change Loy and Xinggang Lin, “Person Re-identification: What Features
Are Important?”, in ICCV, 2012.
【8】
Links
論文：
http://citeseerx.ist.psu.edu/viewdoc/download?
doi=10.1.1.415.589&rep=rep1&type=pdf

全体的に，HSVとYCbCrが良い性能だった．
さらに，下記のAttribute情報を追加した上でも調査しており，
Attributeを加える事で，高性能となることも示している．

Keywords:Face Recognition, HOG, LBP Local Descriptor, Lerning-based, uunsupervised learning
新規性・差分
手法
結果
概要
学習ベースで顔認識用のencoderを生成する手法．実験の結
果，HOGなどよりも7[%]程度精度が向上しており，90[%]の精度
を誇っている．
従来手法のHOGやLBPのような人間が設計した特徴量ではな
く，unsupervised学習で特徴量を設計している．
Z Cao, Q Yin, X Tang, J Sun, “Face Recognition with Learning-based Descriptor”, in CVPR,2010.
【9】
Links
論文：
http://research.microsoft.com/en-us/um/people/jiansun/papers/
CVPR10_FaceReco.pdf

Keywords: Pedestrian Detection, Benchmark, Caltech Pedestrian Detection Benchmark
新規性・差分
結果
概要
歩行者検出用のベンチマークとして知られるCaltech
Pedestrian Detection Benchmarkの提案．
手法
データセットの撮影方法に関する項目や，歩行者のオクルージョン度合いな
ど歩行者の統計情報を評価した．学習画像はpositive 67k, negative 61k, テ
スト画像はpositive 65k, negative 56kのデータが収集されており，歩行者検出
データセットの中でも最大である．さらには，映像やオクルージョンラベルも含
まれている．比較にはHaar-like特徴をはじめShapelet, HOG, ChnFtrs,
PoseInv, PLS, HOGLBPなどの特徴量が比較されている．
データセットの説明はもちろん，映像に含まれる歩行者の特性
や手法の違いについても言及．データの収集，アノテーション，
歩行者検出手法の比較まで詳細に行っていることが新規性．
精度の面では[Walk+, CVPR2010]が最も高い精度を実現した．(表)
Piotr Dollar, Christian Wojek, Bernt Schiele, Pietro Perona, “Pedestrian Detection: An Evaluation of the State
of the Art”, in PAMI2012.
【10】
Links
論文 http://vision.ucsd.edu/~pdollar/files/papers/DollarPAMI12peds.pdf
プロジェクト http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/

Keywords:Bag of words, Fisher Vector, Image searching, image retrival
新規性・差分
手法
結果概要
Fisher Vectorの提案論文．画像検索に用いることを想定してお
り，従来のBoWと比較して，精度・検索速度・メモリーの点で優位
性があることを示している．
従来のBoWのようなフレームワークではなく，確率的な生成モデ
ルを構築して画像検索の精度を上げている．
入力特徴量をGMMでクラスタリングし，平均ベクトル・分散・
重みといった統計的特徴量を算出し，特徴ベクトルとして扱
う．
3つのbinarization(α=0 binarization, Local Senstive Hashing, Spectral
Hashing)で精度を比較している，その結果，α=0 binarizationが最も
高精度となった．以下の画像は画像検索の出力例．
Florent Perronnin, Yan Liu, Jorge Sa ́nchez and Herve ́ Poirier , “Large-scale Image Retrival with Compresed
Fisher Vector”, in CVPR, 2010.
【11】
Links
論文：
http://citeseerx.ist.psu.edu/viewdoc/download?
doi=10.1.1.401.9140&rep=rep1&type=pdf
著者：https://scholar.google.co.jp/citations?user=r8Zh-jwAAAAJ&hl=ja
参考：http://www.slideshare.net/takao-y/fisher-vector
Code: http://jacobcv.blogspot.jp/2014/12/fisher-vector-in-python.html

Keywords: Integral Channel Features, Pedestrian Detection
新規性・差分
手法
結果
概要
複数のチャネルの蓄積により特徴量を構成する”Integral
Channel Features”の提案．
複数チャネルから単純な特徴量を取得するのみで特徴量を構
成しているので，高速かつ高精度な歩行者検出精度を達成し
た．
複数の変換画像(gray, 1次, LUV, edges, Gabor, Gradient
histogram, DOG, Thresholding)から積分した特徴量を蓄積す
る．基本的なアイディアはViola&JonesのHaark-like特徴の単純
な拡張である．識別器にはカスケード識別器の拡張版である
soft cascadeを用いる．
下はINRIA, Caltech Pedestrian datasetにて比較・評価した結果である．
Piotr Dollar, Zhuowen Tu, Pietro Perona, Serge Belongie, “Integral Channel Features”, in BMVC, 2009.
【12】
Links
論文
http://authors.library.caltech.edu/60048/1/dollarBMVC09ChnFtrs.pdf
Piotr Dollar
https://scholar.google.com/citations?user=a8Y2OJMAAAAJ&hl=ja
YouTube https://www.youtube.com/watch?v=SrX1TBjxNq0
OpenCV実装
http://docs.opencv.org/3.0-beta/modules/xobjdetect/doc/
integral_channel_features.html

Keywords:Background Subtraction, evaluation, video surveillance
新規性・差分
結果概要
監視カメラにおける背景差分手法の比較を行っている．9つの
手法は，McFarlance・Stauffer・Oliver・McKenna・Li・Kim・
Zivkovic・Maddalena・Barnichである．
背景差分の欠点などを洗い出すために，9つの手法の比較評
価を行っている．各手法の特徴は下記の通り．

Sebastian Brutzer, Benjamin Hoferlin, Gunther Heidemann, “Evaluation of Background Subtraction Techniques
for Video Surveillance”, in CVPR, 2011.
【13】
Links
論文：http://www.vis.uni-stuttgart.de/uploads/tx_vispublications/Brutzer2011-2.pdf
著者：http://ikw.uni-osnabrueck.de/en/heidemann

Keywords:Action Recognition, Dense Trajecotories, HOG, HOF, MBH
新規性・差分
手法
結果概要
行動認識のための特徴抽出手法の提案．密な軌跡上から複
数の局所特徴量を求めることによって，詳細な特徴抽出を可
能にしている．
従来の動作特徴と異なり，時間的にも空間的にもより密に特
徴を抽出している．
1.画像ピラミッドの生成&5[pixel]間隔で特徴点抽出．この
と特徴点は誤対応を防ぐため閾値判定している．
2.Farneback アルゴリズムによって15[frame]特徴点追跡
3.軌跡上からHOG，HOF，MBH特徴量を算出
H Wang, A Kläser, C Schmid, CL Liu, “Action Recognition by Dense Trajectories”, in CVPR, 2011.
【14】
Links
論文：https://hal.inria.fr/inria-00583818/document
Project：http://lear.inrialpes.fr/people/wang/dense_trajectories

Keywords: Object Retrieval, RootSIFT,
新規性・差分
手法
結果
概要
物体検索のための特徴設計(RootSIFT)・クエリ拡張・特徴の補
完を提案している．実験の結果，3つの提案手法をすべて組み
合わせると最高精度となった．
物体検索における複数の概念を組み合わせて精度を向上さ
せている．
(i)特徴設計
SIFTのベクトルをL1正規化した後，各次元のルートを
取ったベクトルを用いている．

(ii)クエリ拡張
ROIを平均的に修正していく
Ox5k，Ox10k, Paris6kに
対して実験を行った．
結果は右の通り．
Relja Arandjelovi´c, Andrew Zisserman, “Three things everyone should know to improve object retrieval ”, in
CVPR, 2012.
【15】
Links
論文：https://www.robots.ox.ac.uk/~vgg/publications/2012/Arandjelovic12/arandjelovic12.pdf

プレゼン：http://www.robots.ox.ac.uk/~vgg/publications/2012/Arandjelovic12/presentation.pdf

ポスター：http://www.robots.ox.ac.uk/~vgg/publications/2012/Arandjelovic12/poster.pdf

著者：http://www.relja.info/publications.html

(iii)特徴の補完
データセット内の結びつきを考慮してグラフを構築する．

Keywords:asymmetric transforms, object recognition, kernel learning, domain adaptation
手法
結果概要
物体認識のための特徴空間設計．ペアワイズに，非対称で特
徴を変換している．
Brian Kulis, Kate Saenko, and Trevor Darrell, “What You Saw is Not What You Get: Domain Adaptation Using
Asymmetric Kernel Transforms”, in CVPR,2011.
【16】
Links
PDF:ftp://192.33.221.237/pub/courses/EE-700/material/05-12-2012/cvpr_adapt.pdf

Citation:https://scholar.google.co.jp/citations?user=okcbLqoAAAAJ&hl=ja

日本語資料：
http://www.isi.imi.i.u-tokyo.ac.jp/~harada/pdf/
trend_in_scene_object_recognition_cvpr2011.pdf

Keywords:Random Projection, Texture classification,
新規性・差分
手法
結果概要
特徴次元手法であるRandom Projection(RP)によるテクスチャ分
類．RPにおけるパッチサイズや次元数などを詳細に検討してい
る．実験では従来のPCAや複数の特徴と比較している．
テクスチャ分類の汎用性を向上するため，RPをテクスチャ分類
用にfine-tuningしている．万能辞書の作成．
Li Liu, Paul Fieguth, “Texture Classification using Compressed Sensing ”, in PAMI, 2012.
【17】
Links
3つのデータセット(Brodatz, CUReT, MSRC)に対して検証実験してい
る．
論文：http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=6136524

著者：http://www.sbs.ox.ac.uk/community/people/li-liu

Keywords:Acion recognition, Data mining, machine learning, temporal feature
新規性・差分
手法
結果概要
行動認識にデータマイニングの概念を取り入れている．STIPで特
徴を抽出し，Association ruleでマイニングしている．KTHデータ
セットで実験し，95.7%の精度で実現している．
新しい特徴などを設計することなく，データマイニングによって精
度向上している．
A Gilbert, J Illingworth, R Bowden, “Action Recognition Using Mined Hierarchical Compound Features”, in PAMI,
2011.
【18】
Links
論文：http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=5551150&tag=1
著者：https://scholar.google.com/citations?user=NNhnVwoAAAAJ&hl=ja
日本語解説：http://hirokatsu16.blog.fc2.com/blog-entry-97.html

KTHデータセットにおいて複数
の手法に対して実験している．
実験結果を右図に示す．

Keywords: R-CNN, Convolutional Neural Networks (CNN)
新規性・差分
手法
結果
概要
R-CNNの処理を高速化．従来のR-CNNに対して9倍，Heらの
SPPnetに対して3倍の高速化を実現した．
1.  R-CNNやSPPnetよりも精度向上
2.  Multi-task lossを用いたシングルステージの学習
3.  全てのレイヤを学習により更新
4.  特徴をキャッシュするストレージは不要
基本的には物体候補領域を抽出してconv.やmax-poolingにおける特徴マップ
を学習．
【学習】特徴マップにおけるRoIプーリングにより任意の領域サイズを入力として
固定の特徴ベクトルを出力する(学習や検出時に比較できるため)．pre-trained
モデルからの初期化について，全結合層とsoftmax層がRoI pooling層に置き換
えられる．なお，RoI pooling層は誤差逆伝播法も処理可能である．Multi-task
lossではK+1(物体Kクラス+背景1クラス)層の分類において特徴ベクトルを入力
としたときのsoftmax層の分類誤差L_cls(p, u)と位置ずれに対する誤差L_loc(t,
v)から分類やローカライズを補正するためのマルチタスク学習を行う．
【検出】SVD(特異値分解)による低ランク近似を利用して，全結合層のパラメー
タを削減して高速化を図る．
VOC 2007, 2010, 2012に対して良好な結果が出ただけでなく，高速な学
習やfine-tuningによりさらに精度が向上した．下図が成果である．
Ross Girshick, “Fast R-CNN”, in ICCV, 2015. 【19】
Links
論文 http://arxiv.org/pdf/1504.08083v2.pdf
著者 http://www.cs.berkeley.edu/~rbg/
GitHub https://github.com/rbgirshick/fast-rcnn

Keywords: ImageNet, Large-Scale database, ILSVRC, Object Categorization
新規性・差分
手法概要
ILVRCで用いられるImageNetの提案．ImageNetはWordNetと呼
ばれる構造化された単語の概念に沿って画像が収集・構成さ
れる．1000万ものアノテーションされた画像データを含む．その
網羅性と大規模な画像データから，のちにDeep Learningの火
付け役にもなった．
分野最大規模のデータベースをpublicに公開し，さらに追加で
きる仕組みを考案した．”As computer vision research
advances, larger and more challenging datasets are needed for
the next generation of algorithms.”として数年後にDeep
Learningによる躍進を支えるデータとなった．
ImageNetはWordNetに従い画像を収集し，クラスが構造化されている．
WordNetではsynsetと呼ばれるフレーズに従い構成されていて各synsetに
500~1000枚のアノテーションされた画像が含まれるように収集した．ImageNet
は12のsubtree-- mammal, bird, fish, reptile, amphibian, vehicle, furniture,
musical instrument, geological formation, tool, flower, fruit に5,247synsetと(当
時)320万枚の画像が含まれる．さらに，各項目内のデータ分散や画像の網羅
性，収集法についても言及している．
将来展望として，2009年当時のImageNetはWordNetの10%しか含んでいないと
している．これに対してAmazon Mechanical Turk (AMT)によるタグ付けにより，
5千万のアノテーションされたクリーンかつ多様性や解像度を考慮したデータを
公開したいとしている．さらには物体検出のための位置情報やセグメンテー
ション，cross-synset問題にも取り組むべくラベル付けをしたいと主張．
Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, Li Fei-Fei, “ImageNet: A Large-Scale Hierarchical Image
Database”, in CVPR, 2009.
【20】
Links
論文 http://www.image-net.org/papers/imagenet_cvpr09.pdf
プロジェクト http://image-net.org/index

Keywords: Haar-like, Face Detection, Cascade, AdaBoost
新規性・差分
手法
結果
概要
Viola-Jones論文．顔検出手法の研究を進める要因となった論
文．
コントリビューションは3つあると主張．
1.  Integral imageの提案．のちのHaar-like特徴となる
2.  AdaBoostベースの学習方法
3.  カスケード型識別器を提案
まずHaar-like特徴量の提案があげられる．画像内の矩形領域内の明度の累
積を高速に処理するためのIntegral Imageを提案した．隣り合う領域の明暗差
の組み合わせが顔検出に非常に有効なことを実証した．有効なHaar-like特
徴を学習するためにAdaBoostが採用された．AdaBoostではあるクラスを分類
するために有効な特徴量を選択し，さらに次の特徴量が最初の特徴量が苦
手とするものを選択する．上位の特徴量のみで有効なベクトルを抽出できる
ため，識別性能のみならず計算コストの面でも良い性能を保証できる．さらに
は，カスケード型識別器として，識別器を複数連ねることにより，早期に異な
る特徴を棄却することができる．左はHaar-like特徴，右はカスケード型識別
器．
右はMIT+CMUの顔データセットに対して学
習・識別を行った結果である．さらに，提案
手法は384x288pxlの画像に対して15fpsで顔
検出を実現した．使用PCはIntel Pentium III
だったので，当時としては画期的な性能を誇
る顔検出器であった．
Paul Viola, Michael Jones, “Rapid Object Detection using a Boosted Cascade of Simple Features”, in CVPR,
2001.
【21】
Links
論文
https://www.cs.cmu.edu/~efros/courses/
LBMV07/Papers/viola-cvpr-01.pdf
wikipedia
https://en.wikipedia.org/wiki/Haar-
like_features
参考
http://www.vision.cs.chubu.ac.jp/cvtutorial/
pdf/03objectdetection.pdf

Keywords: Unsupervised feature learning, Action Recognition, ISA
新規性・差分
手法
結果
概要
行動認識のための特徴量をIndependent Subspace Analysis
(ISA)により自動学習し，行動の認識性能を高める．特に，CNN
ベースの自動特徴学習も行っている．
HOGやSIFTのようなhand-craftedな特徴量ではなく，教師なし
学習により行動認識に有効な特徴量を設定する．
ISAは有効な多変量解析手法であることが知られるが，ICAに比べて計算コス
トが高いことが知られる．提案手法では，時系列データのように膨大なデータ
を入力としても学習できるような仕組みを考案するため，Convolutional Neural
Networks (CNN)の畳み込みとプーリングの仕組みを参考にした．フィルタに
はparametric Gabor filterを用い，重みWの学習にISAを用いている．また，構
造をよりdeepにするためには左図のようにISAによるパラメータ学習とPCAの
白色化を行う．
Hollywood2やYouTubeデータセットに対してもそれぞれ53.3%，75.8%と非
常に高い性能が出たことを示した．詳細な手法の比較は下記の表に示
す．
Quoc V. Le, Will Y. Zou, Serena Y. Yeung, Andrew Y. Ng, “Learning hierarchical invariant spatio-temporal
features for action recognition with independent subspace analysis”, in CVPR, 2011.
【22】
Links
論文 http://cs.stanford.edu/~quocle/LeZouYeungNg11.pdf
著者ページ http://cs.stanford.edu/~quocle/publications.html

Keywords: Action Recognition, Attribute,
新規性・差分
手法
結果
概要
行動認識の分野にもアトリビュートを導入した論文．認識した行
動タグの付加だけでなく，その属性も判断可能．
1.  トレーニングサンプルが集まらないような状況でもアト
リビュートの認識により効果的に分類可能
2.  Latent SVMにより潜在的なクラス内分散をケア
3.  手動で決定したアトリビュートとdata-drivenなアトリ
ビュートを組み合わせることが可能
属性はクラス内分散の変化を捉えた識別性に優れるように選
択し，行動を説明するために適切なものを選ぶ．
識別器にはLatent SVMを適用し，アトリビュートを潜在変数に
て表現し，クラス内の分散を考慮し適切なクラスにすることに成
功した．
下の表はアトリビュートベースの行動
認識の結果である．学習サンプルが
少ない，かつより高度な記述が必要な
行動クラスに対してattributeベースの
行動認識は有効である．
Jingen Liu, Benjamin Kuipers, Silvio Savarese, “Recognizing Human Actions by Attributes”, in CVPR, 2011.
【23】
Links
論文 http://cvgl.stanford.edu/papers/cvpr11_liu_a.pdf
データセット
http://www.ecse.rpi.edu/homepages/cvrl/database/AttributeDataset.htm

Keywords: Deformable Part Models (DPM), Object Detection, HOG
新規性・差分
手法
結果
概要
CVPR2008に提案されたDPMの改良版．Pictorial Structureに
より構成された部位ベースモデルをカスケード型識別器で構成
することで，位置の制約条件から精度や計算コストを向上させ
る．
Star-structured modelやdynamic programming, distance
transformにより，PASCAL datasetに対して高い精度を誇った
だけでなく，20倍の速度で検出することができた．
右図は2つの異なるカスケード型識別器を走らせた結果である．Pictorial
Structureによる車と人物の尤度マップが異なることが確認できる．Star model
を適用しており，各パーツの位置を理想のパーツ位置と比較する．全てのパー
ツをそれぞれ計算して最終的なスコア値を得る．スコアをを閾値処理により棄
却するのであるが，その際の閾値をApproximately Admissible (PAA)により決
定する．左図は検出画像と自転車モデルの全体とカスケード型識別器の各識
別モデルである．
右の表がprecision-recallであり，
概ねベースラインであるDPMから
精度を損なうことなくスピードを向
上させることに成功した．例えば
bicycleでは22倍のスピードアップを
達成し，各フレーム313msで処理で
きる．
Pedro F. Felzenszwalb, Ross B. Girshick, David McAllester, “Cascade Object Detection with Deformable Part
Models”, in CVPR, 2010.
【24】
Links
論文
http://www.cs.berkeley.edu/~rbg/papers/Cascade-Object-
Detection-with-Deformable-Part-Models--Felzenszwalb-
Girshick-McAllester.pdf
プロジェクト http://www.cs.berkeley.edu/~rbg/star-cascade/

Keywords: Action Recognition, Space-time Neighborhood Features
新規性・差分
手法
結果
概要
従来のbag-of-wordsモデルでは，識別的な特徴を見落としてし
まう可能性があったため，提案手法では隣接する時系列特徴
の形状を学習することで行動カテゴリに最も適した特徴を見つ
けることができる．
提案手法は行動認識の問題に則した形式で特徴量を学習する
ことができる．
Laptevらの提案したHOG/HOF特徴(level-0 feature)を取得し，それらの時系
列近傍をPCA次元圧縮した結果をlevel-1 featureとして記述．
さらに近傍特徴を各スケール・時系列的に階層的に構築し，Multiple Kernel
Learing (MKL)による識別器を生成．χ二乗距離によるカーネルにてSVM識
別器を生成する．level-2 featureは，level-1を各ワードとして見たより上位の
高次特徴を示す．
Level-0は[Laptev+, CVPR2008]の
結果(85.49%)であり，カーネル学習
(84.43%)，Level-0, 1, 2の統合によ
る提案手法が最も高い精度
(87.27%)でUCF Sports datasetの
行動識別を実現した．

Adriana Kovashka, Kristen Grauman, “Learning a Hierarchy of Discriminative Space-Time Neighborhood
Features for Human Action Recognition”, in CVPR, 2010.
【25】
Links
論文
http://www.cs.utexas.edu/~grauman/papers/
kovashka_cvpr2010.pdf
プロジェクト
http://vision.cs.utexas.edu/projects/
activity_neighborhood_features/

Keywords: Actionlet, Action Recognition, Kinect
新規性・差分
手法
結果
概要
Kinectを用いた姿勢ベース行動認識手法の提案.Actionlet(動
作の最小単位)から特徴選択により高精度な行動認識を実現し
た.
姿勢ベースの関節位置推定のようなノイズを含む場面におい
ても有効な特徴量を提案しただけでなく，有効な特徴をサブ
セットとして表現する方法についても考案した.
Local Occupancy Pattern (LOP)により距離画像のアピアランスを評価すること
ができ，人物がインタラクションする物体の情報を取得可能である.また，姿勢
情報に関してもFourier Temporal Pyramidを適用することでノイズに対しても頑
健な記述ができるようになり，Kinectのように関節の検出にゆらぎが発生しても
時系列特徴量を記述可能である.さらには，Actionlet Ensemble Modelを提案す
ることにより，人物の姿勢から行動識別に有効なサブセットを構成する.Mining
では信頼度(Confidence)と曖昧度(Ambiguity)を定義し，曖昧度が低く信頼度が
高い関節位置を適用することで姿勢ベースの行動認識が高精度になる.
CMU MoCap datasetやMSRAction 3D dataset，
MSR DailyActivity3D datasetにて提案手法の有
効性を検証した.MSRAction 3Dにて88.2%(従来
法74.7%)，Daily Activity 3Dにて85.75%(従来法
78%)，CMU Mocapにて98.13%(従来法98.27%)の
識別率と非常に高い数字を出した.
Jiang Wang, Zicheng Liu, Ying Wu, Junsong Yuan, “Mining Actionlet Ensemble for Action Recognition ”, in
CVPR, 2012.
【26】
Links
論文
http://www.msr-waypoint.net/en-us/um/
people/zliu/papers/joint_modeling_final.pdf
著者
http://users.eecs.northwestern.edu/~jwa368/

Keywords: Action Bank, High-level representation, Action Recognition
新規性・差分
手法
結果
概要
Object Bankを参考にして，時系列の行動認識においても
ビュー毎の特徴抽出をボリュームデータにしてMax-poolingを行
う，High-levelな特徴表現方法を実現．
Object Bankの記述に対して，時系列情報を用いることで行動
認識用の識別器へと拡張させた．ビューの変化や時系列のテ
ンポの変化へ対応することができた．また，これにより行動認
識にhigh-levelな特徴記述方法を持ち込んだとしている．
Object Bankを参考にしているが，さらにビューポイントや時系列のテンポの差
を見分けられるように改良した．Naのフィルタ，Nsの時系列スケール，73種類
の3次元spatial pyramidにてmax-poolingを適用するのでNa X Ns X 73 次元の
特徴ベクトルが抽出できる．識別器には標準的なSVMを用いており，損失項に
はL2正則化のHinge-lossを用いる．行動のテンプレートは205種類からなり，
UCF50/KTHからFilter Bankを構成した．
Action Bankは各データセット
にて最先端の精度を達成し
た．KTH(98.2%), UCF
sports(95.0%), UCF50
(57.9%), HMDB51 (26.9%)であ
る．
Sreemanananth Sadanand, Jason Corso, “Action Bank: A High-Level Representation of Activity in Video”, in
CVPR, 2012.
【27】
Links
論文
http://www.cse.buffalo.edu/~jcorso/pubs/
jcorso_CVPR2012_actionbank.pdf
プロジェクト
http://www.cse.buffalo.edu/~jcorso/r/
actionbank/
著者 http://web.eecs.umich.edu/~jjcorso/

Keywords: Objectness, selective search
新規性・差分
手法
結果
概要
Superpixelベースの手法にてセグメンテーションした結果を適応
的に統合し，物体検出のための候補領域とする．なお，その後
オリジナルのR-CNNの物体候補領域抽出方法として適用され
た．
Exhaustive Search (画像の全探索)よりも処理時間を低減し，な
おかつすべてのスケールや物体形状にも対応可能である．
superpixel領域を適応的に統合することで高速かつ柔軟な形状
変化に対応可能である．
“Efficient Graph-based Image Segmentation”によりsuperpixel領域単位に分
類する．さらにはこの領域に対して類似度計算，隣接領域の統合を繰り返す
ことで各スケールや形状に関係なく物体の候補領域を抽出できる．特徴量に
は色やテクスチャ，サイズ，位置関係を用いる．初期パラメータとして閾値を
複数用いて異なる領域を抽出する処理も行う．下の表は3つの戦略であり，一
番上は単一の特徴量にて試した結果．次にSelective Search Fastでは速度重
視の方法をとっており，組み合わせの数が少ない手法である．精度をとるの
であればSelective Search Qualityが一番精度が高かった．Fast/Qualityでは
それぞれ8/80の組み合わせを実行することになる．
平均して正解の物体矩形とのオーバーラップ領域が87.9% (10,097の領域
に対し)，Recall rateは99%を記録するなど良好な性能を実現した．
Jasper R. R. Uijlings, Koen E. A. van de Sande, Theo Gevers, Arnold W. M. Smeulders, “Selective Search for
Object Detection”, in IJCV, 2013.
【28】
Links
論文
https://ivi.fnwi.uva.nl/isis/publications/2013/UijlingsIJCV2013/
UijlingsIJCV2013.pdf
プロジェクト
https://ivi.fnwi.uva.nl/isis/publications/bibtexbrowser.php?
key=UijlingsIJCV2013&bib=all.bib

Superpixelの出力と順次統合した結果
PASCAL VOCに対する性能：recall-正解のうち正解であると予測された
ものの割合，MABO (mean average best overlap)-もっとも重なり率が高
い矩形の平均，windows-候補領域の数

Keywords: R-CNN, CNN, Selective Search
新規性・差分
手法
結果
概要
Regions with CNN (R-CNN)のオリジナル論文．候補領域抽出
と畳み込みニューラルネットワーク(CNN)の特徴量+SVMにより
分類することで物体検出を行う．
CNNの研究では主に物体識別問題が行われてきた．しかし，
位置まで含めて特徴量を取得することも重要な課題である．R-
CNNでは物体候補領域を抽出し，領域内で識別を実行するこ
とにより位置まで含めた物体検出を実現することができる．
次ページにR-CNNのフローを示す．(1)画像入力 (2) 2000前後の物体候補領
域を抽出する．本論文ではselective search (fast mode)を用いているが，
EdgeBoxes, GOP and LPO, MCG, RIGOR, などに代替可能である．(3) CNN
アーキテクチャの中間層から特徴量を取り出す．ここではCaffe/Decafの実装
であるAlexNetを用い，同Decaf論文[Donahue+, ICML2014]にてもっとも精度
の良かった第6, 7層の特徴量(4096次元)を使用．warped regionとあるが，これ
は一定のサイズ(227x227pixels)にリサイズすることである． (4) SVMにより候
補領域内の画像を評価する．信頼度が高い領域のみを認識結果として出力
する．
また，エラー率を下げるためにDPMでも採用されたbounding-box
regression(bbg)を採用した．bbgでは候補領域Pから正解領域Gへの線形関数
である変換マップdを生成することが目的である．
PASCAL VOC 2007で58.8%, 同2010で53.7%，同 2012にて53.3%の精度を
達成した．DPMでは33.4%(PASCAL VOC 2010)の認識結果であるため，
かなりの精度向上を実現した．処理時間はGPUにて13s/image, CPUにて
53s/imageであった．
Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik, “Rich feature hierarchies for accurate object
detection and semantic segmentation”, in CVPR, 2014.
【29】
Links
論文 http://www.cs.berkeley.edu/~rbg/papers/r-cnn-cvpr.pdf
プロジェクト https://github.com/rbgirshick/rcnn
【物体候補領域】
EdgeBoxes: matlab code
GOP and LPO: python code
MCG: matlab code
RIGOR: matlab code

Keywords: R-CNN, Convolutional Neural Networks (CNN)
新規性・差分
手法
結果
概要
R-CNNの処理を高速化．従来のR-CNNに対して9倍，Heらの
SPPnetに対して3倍の高速化を実現した．
1.  R-CNNやSPPnetよりも精度向上
2.  Multi-task lossを用いたシングルステージの学習
3.  全てのレイヤを学習により更新
4.  特徴をキャッシュするストレージは不要
基本的には物体候補領域を抽出してconv.やmax-poolingにおける特徴マップ
を学習．
【学習】特徴マップにおけるRoIプーリングにより任意の領域サイズを入力として
固定の特徴ベクトルを出力する(学習や検出時に比較できるため)．pre-trained
モデルからの初期化について，全結合層とsoftmax層がRoI pooling層に置き換
えられる．なお，RoI pooling層は誤差逆伝播法も処理可能である．Multi-task
lossではK+1(物体Kクラス+背景1クラス)層の分類において特徴ベクトルを入力
としたときのsoftmax層の分類誤差L_cls(p, u)と位置ずれに対する誤差L_loc(t,
v)から分類やローカライズを補正するためのマルチタスク学習を行う．
【検出】SVD(特異値分解)による低ランク近似を利用して，全結合層のパラメー
タを削減して高速化を図る．
VOC 2007, 2010, 2012に対して良好な結果が出ただけでなく，高速な学習や
fine-tuningによりさらに精度が向上した．下図が成果である．
Ross Girshick, “Fast R-CNN”, in ICCV, 2015. 【30】
Links
著者 http://www.cs.berkeley.edu/~rbg/
GitHub https://github.com/rbgirshick/fast-rcnn

Keywords: Faster R-CNN, Region Proposal Networks (RPN)
新規性・差分
手法
結果
概要
物体候補領域をニューラルネットワークにて計算するRegion
Proposal Networks (RPN)を提案することで，End-to-Endで候
補領域抽出~物体検出が可能になった．
物体候補領域を別処理により設定する必要があったが，Faster
R-CNNでは物体候補領域もCNNアーキテクチャ内で抽出可
能．実験では約5FPSでの物体検出やPASCAL VOCで最高精
度を記録した．
入力の画像サイズを適応的にした．画像を入力すると中間層
(intermediate layer)を通り抜け物体候補領域(reg layer)と領域
ないのスコア値(cls layer)を計算する．
PASCAL VOC 2007にて73.2%, 2012にて70.4%を達成した．候補領域の数
も最大300としている．
Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun, “Faster R-CNN: Towards Real-Time Object Detection
with Region Proposal Networks”, in NIPS, 2015.
【31】
Links
GitHub (Python) https://github.com/rbgirshick/py-faster-rcnn
GitHub (Matlab) https://github.com/ShaoqingRen/faster_rcnn

R-CNNの流れ

R-CNN [CVPR2014]
Selective Search [IJCV2013]やBING [CVPR2014]など物体候補領域抽出 + 227x227pixelsの画像からAlexNetの第
6,7層を取り出し，bounding box regressionにより矩形の当てはめ

R-CNN+ [PAMI2015]
CNN特徴をAlexNetからVGGNetに変更 Pool5が最も精度が高いことが判明

Fast R-CNN [ICCV2015]
Selective Search+CNN特徴という形が基本だが，RoIプーリングにより任意の領域サイズを入力として固定の特徴ベ
クトルを出力．227x227pixelsの畳み込みを避けることで高速化．Multi-task lossやすべての層のパラメータ更新によ
り精度自体も向上．

Faster R-CNN [NIPS2015]
Fast R-CNNにてボトルネックになっていた物体候補領域抽出をRegion Proposal Networks (RPN)に置き換えることで
End-to-Endによる物体検出を実現．最適なRegion Proposal学習のためのLoss Functionも考慮．

Keywords: dataset, action recognition, mind’s eye
新規性・差分
データセットの概要
結果
概要
米国国防総省DARPAのMind’s Eyeプロジェクトにて作られた
行動認識用のデータセットを提案する．
行動認識の場面において，YouTubeなどマルチメディアの解析
や実験的な環境ではなく，実際の監視映像において問題を解
決するためのデータセット．
現在までの行動認識データセットは人物が大きく映り込んでいたが，今回の
Large Continuous Action Dataset (LCA)は例えば監視カメラレベルの映像
で，人物のスケールが小さい場合にもいかに行動認識をするかを求める．行
動は24種類であるが，最大の違いは5人のアノテータがそれぞれラベルづけ
をしているため，正解値にばらつきがあることである．
State-of-the-artなアルゴリズム，例えばAction Bank (16.667%)や
Improved Trajectories (15.556%)，Dense Trajectories (14.074%)でも限ら
れた精度でしか行動を認識できないことが判明した．
Daniel Paul Barrett, Ran Xu, Haonan Yu, Jeffrey Mark Siskind, “Collecting and Annotating the Large
Continuous Action Dataset”, in arxiv, 2015.11.
【32】
Links
プロジェクト http://www.visint.org/datasets

今後，さらに洗練されたア
ルゴリズムを考案する必要
性が出てきた．

Keywords: Ego-motion, First Person Vision
新規性・差分
手法
結果
概要
エゴモーションにおいて，自分がどう動いているか(how I
move)，またどのような位置にいるか(how my visual
surroundings change)を推定する．その際の有効な特徴につい
ても学習する．
エゴモーションの自律的な移動に関して，分離性が高い特徴量
を学習する．物理的な運動に対する特徴推定は本研究が初め
てであると主張．
特徴として，3次元空間の位置，ロール・ピッチ・ヨー角を取得する．画像とこ
れらの運動をペアとして学習して対応付けておく．下図はKITTIデータセットに
おける右折・左折・直進の例であり，この場合にはforward distanceとヨー角が
もっともエゴモーションを説明できる変数であることがわかる．最適化としては
特徴空間パラメータΘとDxDの有効な特徴マップMのエラー率を最小にするよ
うに学習する．
Dinesh Jayaranman, Kristen Grauman, “Learning image representations equivariant to ego-motion”, in ICCV,
2015.
【33】
Links
論文 http://arxiv.org/pdf/1505.02206.pdf

Keywords: Visual Turing Test
新規性・差分
手法
結果
概要
画像に対する質問を自動で生成してくれる，Visual Turing Test
の手法を考案．画像の物体認識やその相対的な関係性などを
記述．
CNN+RNNのアプローチにより，従来のVisual Turing Testの精
度を大幅に向上させた．
Recurrent Neural Network (RNN)をベースとしたアプローチを提案する．CNNに
より物体を認識し，それらの相対的な位置関係を記述．RNNでは言語を扱い，質
問文や返答を認識結果から照合するために用いる．モデルは画像xや質問qが
与えられた時の返答aを探索する問題であり，すべてのパラメータθも判断して
返答の集合Aからベストなものを選ぶ．RNNのモデルには
[Donahue+, CVPR2015]を，CNNにはGoogLeNetを用いる．
指標としては，[Malinowski+, NIPS2014]に記載されているWUP (Wu-
Palme) scoresを参考にした．DAQUAR dataset (12,468の質問とそれに対
する返答文を含む)をもちいる．識別対象の物体数は37である．精度は
19.43%，WUPSスコアで25.28(0.9)，62.00(0.0)であった．
Mateusz Malinowski, Marcus Rohrbach, Mario Fritz, “Ask Your Neurons: A Neural-based Approach to
Answering Questions about Images”, in ICCV, 2015.
【34】
Links
論文
https://www.d2.mpi-inf.mpg.de/sites/default/files/
iccv15-neural_qa.pdf
プロジェクト
https://www.mpi-inf.mpg.de/departments/computer-
vision-and-multimodal-computing/research/vision-and-
language/visual-turing-challenge/
YouTube
https://www.youtube.com/watch?v=QZEwDcN8ehs

# WUP (Wu-Palme) scoresは言語の精度を示す指標であ
り，スコアが高いほど曖昧度が低く精度が高い．

Keywords: Pedestrian Detection, Deep Learning, Convolutional Neural Networks (CNN), Cascade
新規性・差分
手法
結果
概要
CNNとの特徴量とカスケード識別器による歩行者検出の論文．
Caltech pedestrian benchmarkやKITTI datasetに対して歩行者
検出の実験を行い，良好な精度を達成．
Complexity-awareなブースティング手法を提案し，カスケード識
別を実現したことや，プーリングの仕組みにより効果的にCNN
特徴やHand-craftedな特徴を統合した．
有効なブースティングの手法であるComplexity-Aware Cascade
Training (CompACT)を提案．学習ではAdaBoostの出力F の(empirical)
リスク関数RE[F] や(complexity)リスク関数Rc[F] から構成されるL[F] =
RE[F]+ηRc[F]をLagrangianにより最適化する．ACF特徴を前処理として
用い，特徴量のプーリングにはSelf-similarity (SS) feature,
Checkerboard feature, HOG, CNNを用いる．
図のように，Caltech
datasetに対してエラー率が
11.7%と最高性能を達成し
た．CompactはACF + small
CNN featureを用い，
Compact-Deepは深層学習
にVGG modelも追加した．
Zhaowei Cai, Mohammad Saberian, Nuno Vasconcelos, “Learning Complexity-Aware Cascades for Deep
Pedestrian Detection”, in ICCV, 2015. (oral)
【35】
Links
論文 http://arxiv.org/abs/1507.05348v1
著者(Z.Cai) https://sites.google.com/site/zhaoweicai1989/

歩行者検出主要特徴
ACF
SS
Filter Channel Feat.
katamari
Spatial pooling+

Shenfeng He, Rynson W. H. Lau, “Oriented Object Proposals”, in ICCV, 2015.
【36】
Keywords: Object Proposal, Objectness
新規性・差分
手法
結果
概要
傾き(Orientation)を含めて物体の候補領域を推定する手法
Oriented Object Proposals (OOPs)を提案．
・傾きが発生した場合にも補正することが可能
・修正されたウィンドウで候補領域を得ることができる
・余分な背景を取得することが低減し，高いRecallを実現できる
全てのウインドウ探索を避けるために異なるポジションに配置された物体から，ス
ケールやアスペクト比計算を同時に処理する方法を考案．生成的確率モデルの構
築によりピクセルごとの計算まで可能にした．またそのために背景確率まで計算す
る．そのためには，Gradient MapやStructured Edges [Dollar+, ICCV2013]を適用す
る．対数尤度により局所最適解を計算し，物体形状は共分散行列により表現され
る．最終的な物体の尤度(l)は下記の式により決定し，背景 (l^{bg})，Structured
Edges (l^{e})，Gradient Map (l^{g})から総合的に判断される．a1, a2, a3はデータか
ら線形回帰により決定づけられる．
PASCAL VOC 2007で実験したところ，最先端の精度で物体を検出することができ
た．さらには，高いRecall rateを実現し，余分な物体候補領域を削減することに成
功した． Links
論文
http://www.shengfenghe.com/uploads/1/5/1/3/15132160/
oop_iccv15.pdf
プロジェクト
http://www.shengfenghe.com/oriented-object-proposals.html
YouTube https://www.youtube.com/watch?v=_iS9qoYWKpk
図は精度の比較である．左図はIoU (バ
ウンディングボックスの重なり)が50%，
右図は80%の時の精度である．正規の
手法で比較すると必ずしも最先端では
ないが，物体検出で計測するとかなり
高い精度で検出が可能．

Mihir Jain, Jan C. van Gemert, Thomas Mensink, Cees G. M. Snoek, “Objects2action: Classifying and localizing
actions without any video example”, ICCV, 2015.
【37】
Keywords: Zero-shot Learning
新規性・差分
手法
結果
概要
行動認識をサンプルなし(Zero-shotベース)に理解する方法で
ある．これに対して，objects2actionと呼ばれる，word2vecでも
用いられるskip-gram表現を用いて数千種類にものぼる物体の
カテゴリを表すことである．ある行動に対して複数の物体が概
念としてエンコードされる．
主な新規性としてobjects2actionという表現方法を提案すること
である．従来のZero-shotベースの方法と異なる点は，属性情
報や，転移のためのクラス-属性のマッピングを与えることなし
に行動を認識する点である．
図はobjects2actionのデータフローである．訓練クラスラベルYとZero-shotテストク
ラスZに重なりはないものとする．サンプルXが与えられ，D={X,Y}が与えられ学習を
実行する．通常のZero-shot学習と異なる点は，(i)テストが行動Zを分類するため，
テストサンプルがビデオVであること，物体のラベルYはImageNetから取得されるも
のとする (ii)物体の意味空間Yから行動ラベルZへと転移させる点，である．特徴の
表現として，Average Word Vectors (AWV)やFisher Word Vectors (FWV)を適用し
た．
左表が結果である．AWVやFWVをそれ
ぞれUCF101, HMDB51, THUMOS14,
UCF Sportsに適用した．また，実験で
は物体の転移や行動の転移について
も比較して考察した(右表)．
Links
論文
http://isis-
data.science.uva.nl/
cgmsnoek/pub/jain-
objects2action-iccv2015.pdf

Justin Johnson, Andrej Karpathy, Li Fei-Fei, “DenseCap: Fully Convolutional Localization Networks for Dense
Captioning”, in arxiv, 201511.
【38】
Keywords: Image Captioning, DenseCaptioning
新規性・差分
手法
結果
概要
Dense Captioningは画像内の生成文を密にすること．物体の検
出結果やその相対的な位置関係などから文章を生成する．物
体認識にはFully Convolutional Localization Network (FCLN)，
言語処理にはRecurrent Neural Network (RNN)を用いる．
「画像識別」では画像に対してSingle Labelしか用意できない，
「物体検出」においても，画像中の物体に応じたタグ付けのみ
である．「画像説明文」ではより画像内の理解が進んでいるが，
さらに画像内にて説明文のラベルを増したことが新規性であ
る．直感的には1枚の画像から領域ごとに説明文を付けること
である．
また，Faster R-CNNにおいては候補領域を抽出するRegion
Proposal Network (RPN)を提案し，4ステップの最適化を実装し
たが，この方法ではRoIプーリングの代わりにspatial soft
attention mechanismを導入し誤差伝播できるようにした．
Localizationも含めて説明文のための画像を抽出するFully Convolutional
Localization Layer (FCLL)を提案．基本的にCNNはVGGモデルを適用し，FCLLは
5th-pooling-layer以降の代わりとして用いられる．また，Faster R-CNNのRPNを参
考にするが，RoIプーリングをSpatial Soft Attention Mechanismに置き換える．候
補領域の抽出では，最大の候補数を300に設定，座標やそれに対するスコアや特
徴量を抽出し，Bounding Box Regressionも行う．Bilinear Interpolationは候補領域
のサイズやアスペクト比の変動を考慮して特徴抽出．RNNの言語モデルは最近の
従来法を参考にしており，Long-Short Term Memory (LSTM)を使用．
Visual Genome Dataset (VGD)を使用した．VGDには94,000枚の画像，4,100,000も
の領域ベースのキャプショニングが付加されている．
Links
著者 http://cs.stanford.edu/people/karpathy/
http://cs.stanford.edu/people/jcjohns/
データセット https://visualgenome.org/

Bolei Zhou, Aditya Khosla, Agata Lapedriza, Aude Oliva, Antonio Torralba, “Learning Deep Features for
Discriminative Localization”, in arXiv 1512, 2015.
【39】
Keywords: Object Localization, Class Activation Mapping
新規性・差分
手法
結果
概要
畳み込み層のマップを利用して物体検出を実行する．
Class Activation Maps (CAM)を提案して，物体検出のための
尤度マップを作成する．
下図のように畳み込み層に立ち返って活性化のマップと重みを累積する．全結合
層では位置情報が消えてしまうが，畳み込み層に残る位置情報とクラスの確率値
を累積して計算．アーキテクチャはGoogLeNetやNetwork in Network (NIN)と類似
したものを適用し，出力層の手前の畳み込み層から取り出した活性化関数f_k(x,y)
を使用．この場合，softmax Scに直結する重みはクラス数に一致するため，各クラ
スの尤度と畳み込みに残る位置を取得できるという仕組み．
ILSVRC2014の物体検出チャレンジにおいて37.1%のエラー率(top-5)と，フルCNN
学習モデル34.2%に近い精度を実現した．左はエラー率の比較．
Links
プロジェクト http://cnnlocalization.csail.mit.edu/

Olga Russakovsky, Li Fei-Fei et al., “ImageNet Large Scale Visual Recognition Challenge”, in IJCV, 2015.
【40】
Keywords: ImageNet, ILSVRC, Object Recognition
内容
結果
概要
ILSVRCにて用いられるImageNetデータセットのジャーナル版．CVPR2009のImageNet論文と異なる点は，データの拡張や2014年までのチャレンジの結果
などが記述されている点である．ここではアップデートや詳細情報について記述する．
・2010年から2014年までで50以上のチームが参加した
・関連する試みはCaltech-101, Caltech-256,
TinyImages dataset, WordNet, LabelMe, SUN, MSRC,
Stanford Background, Berkeley Segmentation, OpenSurfaces,
PASCAL VOC, COCO, Labeled Faces in the Wild (LFW),
KITTI
・アノテーションにはAmazon Mechanical Turkを用いる
・タスクはImage Classification (2010-2014)，Single-object
localization (2011-2014)，Object detection (2013-2014)
・Classification taskのデータはFlickrや他検索エンジンから抽
出
・
次から2ページに渡り，ILSVRC2010-2014の結果を表示．
Links
プロジェクト http://www.image-net.org/
・カテゴリ分けはWordNetに基づいて行う
・カテゴリ毎にバリエーションをもたせて画像を収集するために，複数の画像検索
エンジンを用いている．
・さらにはアノテーションの問題．クラウドソーシングによりバウンディングボックス
やカテゴリを挿入．

Alex Kendall, Vijay Badrinarayanan, Roberto Cipolla, “Bayesian SegNet: Model Undertainty in Deep
Convolutional Encoder-Decorder Architectures for Scene Understanding”, in arXiv 1511, 2015.
【41】
Keywords: Bayesian SegNet, Semantic Segmentation
新規性・差分
手法
結果
概要
セマンティックセグメンテーションを行うSegNetを提案した．ネッ
トワークアーキテクチャにて特徴のエンコーディングとセグメン
テーション画像を復元していくでコーディング(Encoder-
Decorder)を行う．
主な新規性としては，Encoder-DecorderのCNNアーキテ
クチャに対し，Dropoutを確率的にして効果的なセグメン
テーションを実現したことである．ソフトマックスによる出
力がそのままセグメンテーション結果となっているため，
出力層のDropoutが非常に重要であるという提案．
アーキテクチャは下図に示される通り13層構成で，Encoder-Decorderの構造を保
持している点や出力であるソフトマックス層のDropoutにてMonte Carloサンプリン
グを導入した．これは，セマンティックセグメンテーションの精度を向上させるため
の工夫である．畳み込みの重みWはベルヌーイ分布にてサンプリングすることで，
パラメータの調整が非常に効率化した．
CamVid Road，SUN RGB-D，VOC 2012に対して実験を行った．Dropoutサンプリン
グが有効である(Sampling数は10~20で飽和)ことや，概ね精度が向上していること
が判明した．下はSUN RGB-DのSemant. Seg.の結果．
Links
プロジェクト(コードあり) http://mi.eng.cam.ac.uk/projects/segnet/
YouTube https://www.youtube.com/watch?v=e9bHTlYFwhg

Tomas Mikolov, Kai Chen, Greg Carrado, Jeffrey Dean, “Efficient Estimation of Word Representations in
Vector Space”, ICLR, 2013.
【42】
Keywords: Word2Vec
新規性・差分
手法
結果
概要
Word2Vecの論文．単語の概念間の計算を行うために，大規模
なテキストデータからその統計値を計算した．
単語間の意味的な関係性を記述・計算できるようにした画期的
な手法．単語の分散表現を学習する手法にはNNLMがあるが，
これはニューラルネット言語モデルであり，フィードフォワード
NNを線形射影層と非線形隠れ層とを組み合わせ，単語ベクト
ル表現と統計的言語モデルを同時に学習する．
例えば，vector(“King”) – vector(“Man”) + vector(“Woman”) = vector(“Queen”)な
ど，概念間の計算を効率的にやりとりできるようにした．ニューラルネットを用いて
いるが，DistBelief[Dean+, NIPS2012]により学習した．
・単語の表現としてはContinuous Bag-of-Words (CBOW)を採用した．これは，現在
の単語の周辺の単語を用いて現在の単語を予測する表現である．普通のBOWと
は異なり，分散表現を用いることが可能．
・Continuous Skip-gramモデルでは文脈から現在の単語を予測するのでなく現在
の単語から周辺の単語を予測する．文脈長を広げると単語ベクトルの質はよくなる
が，計算量が大きくなるし，離れれば離れるほど現在の単語と無関係になるので，
距離に応じてダウンサンプリングする．
6億を超える単語数を保持するGoogleNewsからモデリングを行った．下の表は783
万単語から学習された300次元Skip-gramの出力である．
Links
プロジェクト(コードあり) https://code.google.com/p/word2vec/
SlideShare
http://www.slideshare.net/mamoruk/iclr2013-word2vec

Yangqing Jia, Evan Shelhamer, Jeff Donahue, Sergey Karayav, Jonathan Long, Ross Girshick, Sergio
Guadarrama, Trevor Darrell: Caffe: Convolutional Architecture for Fast Feature Embedding, ACM Multimedia,
2014.
【43】
Keywords: Caffe, Deep Learning
新規性・差分
手法
他フレームワークとの比較
概要
UC Berkeleyが提供する，深層学習フレームワークであるCaffe
の論文．Caffeでは主に画像向けのConvolutional Neural
Networks (CNN)を提供した．
他の画像認識用ディープラーニングと比較して高速な実装を提
供した．また，基本的なPre-trainedモデルが備えられているこ
とや，開発のコミュニティが充実していることも大きなポイントの
ひとつである．
LeNet-5やILSVRC2012 winnerのAlexNet，より深い構造のVGGNetやGoogLeNet
が初めから実装されている，もしくはダウンロードして簡易的に使用することが可
能である．.prototxtファイルを用いると，中間層から抽出した特徴を用いることがで
きる．また，ImageNet+αの学習としてFine-tuningが用意されている．フルスクラッ
チの学習も，自ら学習データやパラメータ，CNNの構造を設定することで可能．
Fine-tuningを行い，コンペティションの1,000クラスのみならず，10,000クラスの分類
も配布している．
下に他のフレームワークとの比較を示している．
Links
論文
http://ucb-icsi-vision-group.github.io/caffe-paper/
caffe.pdf
プロジェクト(コードあり) http://caffe.berkeleyvision.org/
山下隆義先生(中部大)の資料:Caffeの扱い方についてスラ
イドの最後の方に非常によくまとめられている
http://www.slideshare.net/Takayosi/deep-learning-seminar

Keywords: R-CNN, Deep Learning, Convolutional Neural Networks (CNN), Object Detection
新規性・差分
手法
結果
概要
CNNの構造の中で物体検出できる仕組みを実装した．
R-CNNはselective searchにより物体候補領域を抽出し，CNN
により識別する手法であるが，CNNの構造内で検出までできる
かもしれないという主張．Spatil Pyramid Pooling (SPP)[1]や
selective searchによる物体検出の解析と検討をしている．
まず，SVMは冗長でありCNNの構造内で識別まで全て完結することができる
ということを検討．
次にSPPとbounding box regressionをbank of filterの枠組みの中で統合．ス
ケーリングについても考察し，単一スケールでも処理速度を保てるようにし
た．
表に結果を示す．各項目について有効性を確認しただけでなく，処理速
度も1フレーム160msであり，従来の16倍以上(2.5s)高速にした．
Karel Lenc, Andrea Vedaldi, “R-CNN minus R”, in BMVC, 2015.
【44】
Links
論文 http://www.robots.ox.ac.uk/~vedaldi/assets/pubs/lenc15rcnn.pdf
著者 (Andrea Vedaldi) http://www.robots.ox.ac.uk/~vedaldi/index.html
コードMatConvNet: CNN for MATLAB http://www.vlfeat.org/matconvnet/
[1]
K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional
networks for visual recognition. In ECCV, 2014.

Keywords: Convolutional Neural Networks (CNN), Deblurring, Blind Decovolution
新規性・差分
手法
結果
概要
Convolutional Neural Networks (CNN)を用いた，blind
deconvolutionに関する研究．文字OCRのための文字認識に着
目した．
Schulerら[27]の手法が比較として挙げられるが，CNNのネット
ワークが小規模であり，画像の復元もスタンダードなデブラー
の手法である．
x = F(y, θ)のθを求めるためにに(x,y)のペアを学習する．文字
は非常に強い事前情報を保持しており，学習ベースの復元は
有効である．本稿で用いられるCNNの構造は15層である．フィ
ルターやチャネル数は表の通り．
下は実際にCNNを用いてデブラーをした結果である．OCRを用いて処理した
結果，通常通り文字認識ができることを実証した．
Michal Hradis, Jan Kotera, Pavel Zemcik, Filip Sroubek, “Convolutional Neural Networks for Direct Text
Deblurring”, in BMVC, 2015.
【45】
Links
論文 http://bmvc2015.swansea.ac.uk/proceedings/papers/paper006/paper006.pdf
概要
http://bmvc2015.swansea.ac.uk/proceedings/papers/paper006/abstract006.pdf
プロジェクト http://www.fit.vutbr.cz/~zemcik/pubs.php?id=10922

ご質問・コメント等ありましたら，cvpaper.challenge@gmail.com / Twitter@CVPaperChallengまでお願いします．

【2016.01】(1/3)cvpaper.challenge2016

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

【2016.01】(1/3)cvpaper.challenge2016