SlideShare a Scribd company logo
cvpaper.challenge	
Twitter@CVPaperChalleng
http://www.slideshare.net/cvpaperchallenge
MAILTO: cvpaper.challenge[at]gmail[dot]com
Keywords: Dataset, Scene Categorization, Benchmark, Recognition	
新規性・差分	
データセットの概要	
結果	
概要	
コンピュータビジョンにおいてシーン認識のデータベースである
Scene UNderstanding (SUN) databaseを提案.シーン認識の裾
野を広げた.	
それまでの物体認識のデータセットでは数百クラスの識別クラ
スが用意されていたが,シーン認識では15種類程度しか含ま
れていなかった.SUN databaseでは,それまでのデータセットを
さらに拡大させ,397クラスのシーンを含む,大規模なデータ
セットである.	
シーン認識に関する397クラス,130,519枚の画像が含まれる.
画像例は次ページ.比較した特徴量は,HOG, denseSIFT,
self-similarity (ssim), LBP, GIST, textonなど.	
次ページの図の通り.全ての特徴量を統合するのが最も精度が高いこと
が判明した(38.0%).次いでHOG2x2 (27.2%), geometry texton hist (23.5%),
ssim (22.5%), dense SIFT (21.5%)であった.	
Jianxiong Xiao, James Hays, Krista A. Ehinger, Aude Oliva, Antonio Torralba, “SUN Database:
Large-scale Scene Recognition from Abbey to Zoo”, in CVPR2010.	
【1】	
Links	
論文ページ:	
http://cs.brown.edu/~hays/papers/sun.pdf	
	
プロジェクトページ:	
http://vision.princeton.edu/projects/2010/SUN/	
	
HOG https://hal.archives-ouvertes.fr/inria-00548512/document	
GIST http://cvcl.mit.edu/scene_understanding.html	
SSIM
http://www.researchgate.net/profile/Eli_Shechtman/publication/221362526_Matching_Local_Self-
Similarities_across_Images_and_Videos/links/02e7e520897af25746000000.pdf	
DenseSIFT http://www.vision.caltech.edu/Image_Datasets/Caltech101/cvpr06b_lana.pdf	
LBP http://www.outex.oulu.fi/publications/pami_02_opm.pdf	
Sparse SIFT http://www.robots.ox.ac.uk/~vgg/publications/papers/sivic04b.pdf	
Texton http://www.ics.uci.edu/~fowlkes/papers/mftm-iccv01.pdf
SUN databaseの一例	 実験結果
Keywords:Saliency, object detection, objectness, PASCAL VOC 07 dataset Baysian framework	
新規性・差分	
手法	
結果	
概要	
画像中の注目度領域の検出として,objectnessを提案している.
4つの指標を用い,ベイズの枠組みでobjectnessを実現してい
る.	
objectonessの4つの指標を組み合わせて使用した	
	
4つの指標	
・multi-scale saliency(MS)	
	
・color contrast(CC)	
	
・edge density(ED)	
	
・syperpixels straddling(SS)	
4つの指標を,ベイズの枠組みで統合している.	
Bogdan Alexe, Thomas Deselaers, Vittorio Ferrari, “What is an object ?”, in CVPR, 2010.	
【2】	
Links	
・論文	
・プロジェクトページ(コードあり)	
PASCAL VOC 07datasetで実験した.実験結果はDR-STN curvesで評価
している.	
DR:detection rate	
STN:signal to noise
Keywords: 3D Pose estimate, Human Eva II dataset, tracking by detection	
新規性・差分	
手法	
結果	概要	
単眼カメラでの3次元姿勢推定.	
混雑状況においても実現できるよう,3段階の処理を加えてい
る.	
Human Eva IIベンチマークで最先端の結果を示した.	
	
従来の単眼カメラでの3D姿勢推定は,かなり制限のある環境
でのみ実現されてきた.それに対し,本手法は雑多な環境で
も実現できるように手法を設計した.	
はじめに,1フレームから人物の視点と2D関節を推定する.	
次に,フレーム間の関連性を,tracking by detectionに基づい
て求める.	
最後に,追跡情報から3Dの姿勢を復元する.	
	
Human Eva II datasetで実験した結果	
Mykhaylo Andriluka, Stefan Roth, Bernt Schiele, “Monocular 3D Pose Estimation and Tracking by Detection”, in
CVPR, 2010.	
【3】	
Links	
論文:http://www.gris.informatik.tu-darmstadt.de/~sroth/pubs/cvpr10andriluka.pdf	
	
プロジェクトページ:https://www.d2.mpi-inf.mpg.de/node/428
Keywords: Deep Learning, Convolutional Neural Networks (CNN), Visualization, AlexNet, Caltech 101, Caltech 256	
新規性・差分	
手法	
結果	
概要	
Deep Learningは非常に有効な特徴量を抽出することで知られ
ているが,その構造はブラックボックスであった.本稿ではCNN
特徴を可視化することにより少しでも特徴抽出に関する理解を
深める.	
Deep Learningによる識別を行うだけでなく,可視化を行う.ここ
ではAlexNetを適用している.可視化により,特徴量の傾向を把
握し,さらに識別精度の高いモデルを構築できる.	
次ページに可視化のフロー図を示す.	
下図は可視化の例である.識別に有効な特徴量を選択して可視化してい
る.層が進むほど高次な特徴になっている.	
Matthew D. Zieler, Rob Fergus, “Visualizing and Understanding Convolutional Networks”, in ECCV, 2014.	
【4】	
Links	
論文ページ	
http://www.matthewzeiler.com/pubs/arxive2013/eccv2014.pdf	
	
著者ページ	
http://www.matthewzeiler.com/	
	
著者による講演動画	
https://www.youtube.com/watch?v=ghEmQSxT6tw
可視化のフロー図
Keywords: Person re-identification,iLIDS,VIPeR,ETZH,SDALF,Color Feature	
新規性・差分	
手法	
結果	概要	
人物の対称性を用いたPerson Re-IDの提案.Stmmetry-
Driven Accumulation of Local Features(SDALF)と呼ばれてい
る.	
iLIDS, VIPeR, ETZH datasetで実験し,有効性を確認した.	
従来のPerson Re-IDは,色特徴やテクスチャ特徴などの設計
方法に焦点が当てられていた.しかし,本論文では,「人物は左
右で対称性がある」という構造情報を加える事で,Re-IDの精度
を向上させている.	
はじめに,人物領域から顔・胴体・下半身を分離し,胴体と
下半身は対称性があるとして領域分割する.次に,各領域
から特徴(Weight Color Histgoram,Maximally Stable Color
Regions,Reccurent High-Structures Pathes)を抽出する.
最後に,特徴を重み付けした距離計さんによってマッチング
する	
iLIDS, VIPeR, ETZH datasetで実験した結果が以下のとおり	
M. Farenzena, L. Bazzani, A. Perina, V. Murino, M. Cristani, “Person Re-Identification by Symmetry-Driven
Accumulation of Local Features ”, in CVPR, 2010.	
【5】	
Links	
・PDF:http://www.lorisbazzani.info/papers/proceedings/FarenzenaetalCVPR10.pdf	
	
・Project:http://www.lorisbazzani.info/sdalf.html	
	
・Code:https://github.com/lorisbaz/SDALF	
	
実験結果はCMC曲線で評価されている.CMC曲線は,横軸にRank,
縦軸に累積確率をとっており,面積が大きいほど性能が高い.
Keywords:Automatic Attribute Discovery, Automatic Characterization and MiLBoost	
新規性・差分	
手法	
結果	
概要	
Web上の画像から自動的に物体判別のための属性を抽出
するシステムを提案した.	
・物体を識別するための特徴を自動的に発
見・順位付けができる.	
	
・人の手でラベル付けする必要なく,物体の
appearance modelを学習できる.	
	
・特定のための属性として,外見的特徴だ
けでなく,その特徴が局所的な特徴か全体
的な特徴かの尺度(Localizability)を持つ.
外見的特徴としては色・形状・テクスチャを
用いている.	
	
1.Webから大量の画像とその説明文を集める.	
2.集めた説明文から画像の特徴の属性の検出や順位付けをす
る	
3.順位の高い属性を外見的特徴として,MIL Boostを用いて属性
ごとのLocalizabilityを設定する.	
	
Web上のイヤリングとバック,ネクタイ,靴の画像
に対して提案システムを用いて属性付けした.	
人が属性付けしたデータと比べて,	
イヤリングとバックで80%,ネクタイで90%,靴で70%
の精度で正しく属性付けできた.	
TL Berg, AC Berg, J Shih, “Automatic Attribute Discovery and Characterization from Noisy Web Data”, in
ECCV, 2010.	
【6】	
Links	
論文
Keywords:Person Re-ID, Metric Learning, PRDC, 	
新規性・差分	
手法	
結果	概要	
Person R-IDにおけるMetric Learningの提案.Probabilistic
Relative Distance Comparison(PRDC).実験の結果,ブースティ
ングなどの手法よりも高性能となった.	
從來手法ではクラス内分散を最小化することに焦点が当てられ
ていたが,それよりも,ペアワイズに学習することで正しいクラス
の尤度を最大化している.これにより,外観変化に頑健になり,
モデルの過学習を防ぐことが出来る.	
クラス内分散を最小化するのではなく,ペアワイズに学習
することで正しいクラスの尤度を最大化している.	
Wei-Shi Zheng, Shaogang Gong and Tao Xiang, “Person Re-identification by Probabilistic Relative Distance
Comparison”, in CVPR, 2011.	
【7】	
Links	
論文:http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5995598
Keywords: Person Re-ID, HSV, YCrCb, RGB, Gabor, Schmid, attribute	
新規性・差分	
結果	
概要	
Person Re-IDにおける複数の外観特徴の有効性を調査してい
る.RGB・HSV・YCrCb・Gabol Filter・Schmid Filterに対して実
験している.	
從來,多くの外観特徴が提案されてきたが,どの特徴が有効
か調査されていなかった.そのため本論文では,複数の特徴
を適用して有効性を調査している.	
Chunxiao Liu, Shaogang Gong, Chen Change Loy and Xinggang Lin, “Person Re-identification: What Features
Are Important?”, in ICCV, 2012.	
【8】	
Links	
論文:
http://citeseerx.ist.psu.edu/viewdoc/download?
doi=10.1.1.415.589&rep=rep1&type=pdf	
	
	
全体的に,HSVとYCbCrが良い性能だった.	
さらに,下記のAttribute情報を追加した上でも調査しており,
Attributeを加える事で,高性能となることも示している.
Keywords:Face Recognition, HOG, LBP Local Descriptor, Lerning-based, uunsupervised learning	
新規性・差分	
手法	
結果	
概要	
学習ベースで顔認識用のencoderを生成する手法.実験の結
果,HOGなどよりも7[%]程度精度が向上しており,90[%]の精度
を誇っている.	
従来手法のHOGやLBPのような人間が設計した特徴量ではな
く,unsupervised学習で特徴量を設計している.	
Z Cao, Q Yin, X Tang, J Sun, “Face Recognition with Learning-based Descriptor”, in CVPR,2010.	
【9】	
Links	
論文:
http://research.microsoft.com/en-us/um/people/jiansun/papers/
CVPR10_FaceReco.pdf
Keywords: Pedestrian Detection, Benchmark, Caltech Pedestrian Detection Benchmark	
新規性・差分	
結果	
概要	
歩行者検出用のベンチマークとして知られるCaltech
Pedestrian Detection Benchmarkの提案.	
手法	
データセットの撮影方法に関する項目や,歩行者のオクルージョン度合いな
ど歩行者の統計情報を評価した.学習画像はpositive 67k, negative 61k, テ
スト画像はpositive 65k, negative 56kのデータが収集されており,歩行者検出
データセットの中でも最大である.さらには,映像やオクルージョンラベルも含
まれている.比較にはHaar-like特徴をはじめShapelet, HOG, ChnFtrs,
PoseInv, PLS, HOGLBPなどの特徴量が比較されている.	
データセットの説明はもちろん,映像に含まれる歩行者の特性
や手法の違いについても言及.データの収集,アノテーション,
歩行者検出手法の比較まで詳細に行っていることが新規性.	
精度の面では[Walk+, CVPR2010]が最も高い精度を実現した.(表)	
Piotr Dollar, Christian Wojek, Bernt Schiele, Pietro Perona, “Pedestrian Detection: An Evaluation of the State
of the Art”, in PAMI2012.	
【10】	
Links	
論文 http://vision.ucsd.edu/~pdollar/files/papers/DollarPAMI12peds.pdf	
プロジェクト http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/
Keywords:Bag of words, Fisher Vector, Image searching, image retrival	
新規性・差分	
手法	
結果	概要	
Fisher Vectorの提案論文.画像検索に用いることを想定してお
り,従来のBoWと比較して,精度・検索速度・メモリーの点で優位
性があることを示している.	
従来のBoWのようなフレームワークではなく,確率的な生成モデ
ルを構築して画像検索の精度を上げている.	
入力特徴量をGMMでクラスタリングし,平均ベクトル・分散・
重みといった統計的特徴量を算出し,特徴ベクトルとして扱
う.	
3つのbinarization(α=0 binarization, Local Senstive Hashing, Spectral
Hashing)で精度を比較している,その結果,α=0 binarizationが最も
高精度となった.以下の画像は画像検索の出力例.	
Florent Perronnin, Yan Liu, Jorge Sa ́nchez and Herve ́ Poirier , “Large-scale Image Retrival with Compresed
Fisher Vector”, in CVPR, 2010.	
【11】	
Links	
論文:
http://citeseerx.ist.psu.edu/viewdoc/download?
doi=10.1.1.401.9140&rep=rep1&type=pdf	
著者:https://scholar.google.co.jp/citations?user=r8Zh-jwAAAAJ&hl=ja	
参考:http://www.slideshare.net/takao-y/fisher-vector	
Code: http://jacobcv.blogspot.jp/2014/12/fisher-vector-in-python.html
Keywords: Integral Channel Features, Pedestrian Detection	
新規性・差分	
手法	
結果	
概要	
複数のチャネルの蓄積により特徴量を構成する”Integral
Channel Features”の提案.	
複数チャネルから単純な特徴量を取得するのみで特徴量を構
成しているので,高速かつ高精度な歩行者検出精度を達成し
た.	
複数の変換画像(gray, 1次, LUV, edges, Gabor, Gradient
histogram, DOG, Thresholding)から積分した特徴量を蓄積す
る.基本的なアイディアはViola&JonesのHaark-like特徴の単純
な拡張である.識別器にはカスケード識別器の拡張版である
soft cascadeを用いる.	
下はINRIA, Caltech Pedestrian datasetにて比較・評価した結果である.	
Piotr Dollar, Zhuowen Tu, Pietro Perona, Serge Belongie, “Integral Channel Features”, in BMVC, 2009.	
【12】	
Links	
論文
http://authors.library.caltech.edu/60048/1/dollarBMVC09ChnFtrs.pdf	
Piotr Dollar
https://scholar.google.com/citations?user=a8Y2OJMAAAAJ&hl=ja	
YouTube https://www.youtube.com/watch?v=SrX1TBjxNq0	
OpenCV実装
http://docs.opencv.org/3.0-beta/modules/xobjdetect/doc/
integral_channel_features.html
Keywords:Background Subtraction, evaluation, video surveillance	
新規性・差分	
結果	概要	
監視カメラにおける背景差分手法の比較を行っている.9つの
手法は,McFarlance・Stauffer・Oliver・McKenna・Li・Kim・
Zivkovic・Maddalena・Barnichである.	
背景差分の欠点などを洗い出すために,9つの手法の比較評
価を行っている.各手法の特徴は下記の通り.	
	
Sebastian Brutzer, Benjamin Hoferlin, Gunther Heidemann, “Evaluation of Background Subtraction Techniques
for Video Surveillance”, in CVPR, 2011.	
【13】	
Links	
論文:http://www.vis.uni-stuttgart.de/uploads/tx_vispublications/Brutzer2011-2.pdf	
著者:http://ikw.uni-osnabrueck.de/en/heidemann
Keywords:Action Recognition, Dense Trajecotories, HOG, HOF, MBH	
新規性・差分	
手法	
結果	概要	
行動認識のための特徴抽出手法の提案.密な軌跡上から複
数の局所特徴量を求めることによって,詳細な特徴抽出を可
能にしている.	
従来の動作特徴と異なり,時間的にも空間的にもより密に特
徴を抽出している.	
1.画像ピラミッドの生成&5[pixel]間隔で特徴点抽出.この 	
と特徴点は誤対応を防ぐため閾値判定している.	
2.Farneback アルゴリズムによって15[frame]特徴点追跡	
3.軌跡上からHOG,HOF,MBH特徴量を算出	
H Wang, A Kläser, C Schmid, CL Liu, “Action Recognition by Dense Trajectories”, in CVPR, 2011.	
【14】	
Links	
論文:https://hal.inria.fr/inria-00583818/document	
Project:http://lear.inrialpes.fr/people/wang/dense_trajectories
Keywords: Object Retrieval, RootSIFT, 	
新規性・差分	
手法	
結果	
概要	
物体検索のための特徴設計(RootSIFT)・クエリ拡張・特徴の補
完を提案している.実験の結果,3つの提案手法をすべて組み
合わせると最高精度となった.	
物体検索における複数の概念を組み合わせて精度を向上さ
せている.	
(i)特徴設計	
SIFTのベクトルをL1正規化した後,各次元のルートを	
取ったベクトルを用いている.	
	
(ii)クエリ拡張	
ROIを平均的に修正していく	
Ox5k,Ox10k, Paris6kに	
対して実験を行った.	
結果は右の通り.	
Relja Arandjelovi´c, Andrew Zisserman, “Three things everyone should know to improve object retrieval ”, in
CVPR, 2012.	
【15】	
Links	
論文:https://www.robots.ox.ac.uk/~vgg/publications/2012/Arandjelovic12/arandjelovic12.pdf	
	
プレゼン:http://www.robots.ox.ac.uk/~vgg/publications/2012/Arandjelovic12/presentation.pdf	
	
ポスター:http://www.robots.ox.ac.uk/~vgg/publications/2012/Arandjelovic12/poster.pdf	
	
著者:http://www.relja.info/publications.html	
	
	
(iii)特徴の補完	
データセット内の結びつきを考慮してグラフを構築する.
Keywords:asymmetric transforms, object recognition, kernel learning, domain adaptation	
手法	
結果	概要	
物体認識のための特徴空間設計.ペアワイズに,非対称で特
徴を変換している.	
Brian Kulis, Kate Saenko, and Trevor Darrell, “What You Saw is Not What You Get: Domain Adaptation Using
Asymmetric Kernel Transforms”, in CVPR,2011.	
【16】	
Links	
PDF:ftp://192.33.221.237/pub/courses/EE-700/material/05-12-2012/cvpr_adapt.pdf	
	
Citation:https://scholar.google.co.jp/citations?user=okcbLqoAAAAJ&hl=ja	
	
日本語資料:
http://www.isi.imi.i.u-tokyo.ac.jp/~harada/pdf/
trend_in_scene_object_recognition_cvpr2011.pdf
Keywords:Random Projection, Texture classification, 	
新規性・差分	
手法	
結果	概要	
特徴次元手法であるRandom Projection(RP)によるテクスチャ分
類.RPにおけるパッチサイズや次元数などを詳細に検討してい
る.実験では従来のPCAや複数の特徴と比較している.	
テクスチャ分類の汎用性を向上するため,RPをテクスチャ分類
用にfine-tuningしている.万能辞書の作成.	
Li Liu, Paul Fieguth, “Texture Classification using Compressed Sensing ”, in PAMI, 2012.	
【17】	
Links	
3つのデータセット(Brodatz, CUReT, MSRC)に対して検証実験してい
る.	
論文:http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=6136524	
	
著者:http://www.sbs.ox.ac.uk/community/people/li-liu
Keywords:Acion recognition, Data mining, machine learning, temporal feature	
新規性・差分	
手法	
結果	概要	
行動認識にデータマイニングの概念を取り入れている.STIPで特
徴を抽出し,Association ruleでマイニングしている.KTHデータ
セットで実験し,95.7%の精度で実現している.	
新しい特徴などを設計することなく,データマイニングによって精
度向上している.	
A Gilbert, J Illingworth, R Bowden, “Action Recognition Using Mined Hierarchical Compound Features”, in PAMI,
2011.	
【18】	
Links	
論文:http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=5551150&tag=1	
著者:https://scholar.google.com/citations?user=NNhnVwoAAAAJ&hl=ja	
日本語解説:http://hirokatsu16.blog.fc2.com/blog-entry-97.html	
	
KTHデータセットにおいて複数
の手法に対して実験している.	
実験結果を右図に示す.
Keywords: R-CNN, Convolutional Neural Networks (CNN)	
新規性・差分	
手法	
結果	
概要	
R-CNNの処理を高速化.従来のR-CNNに対して9倍,Heらの
SPPnetに対して3倍の高速化を実現した.	
1.  R-CNNやSPPnetよりも精度向上	
2.  Multi-task lossを用いたシングルステージの学習	
3.  全てのレイヤを学習により更新	
4.  特徴をキャッシュするストレージは不要	
基本的には物体候補領域を抽出してconv.やmax-poolingにおける特徴マップ
を学習.	
【学習】特徴マップにおけるRoIプーリングにより任意の領域サイズを入力として
固定の特徴ベクトルを出力する(学習や検出時に比較できるため).pre-trained
モデルからの初期化について,全結合層とsoftmax層がRoI pooling層に置き換
えられる.なお,RoI pooling層は誤差逆伝播法も処理可能である.Multi-task
lossではK+1(物体Kクラス+背景1クラス)層の分類において特徴ベクトルを入力
としたときのsoftmax層の分類誤差L_cls(p, u)と位置ずれに対する誤差L_loc(t,
v)から分類やローカライズを補正するためのマルチタスク学習を行う.	
【検出】SVD(特異値分解)による低ランク近似を利用して,全結合層のパラメー
タを削減して高速化を図る.	
VOC 2007, 2010, 2012に対して良好な結果が出ただけでなく,高速な学
習やfine-tuningによりさらに精度が向上した.下図が成果である.	
Ross Girshick, “Fast R-CNN”, in ICCV, 2015.	【19】	
Links	
論文 http://arxiv.org/pdf/1504.08083v2.pdf	
著者 http://www.cs.berkeley.edu/~rbg/	
GitHub https://github.com/rbgirshick/fast-rcnn
Keywords: ImageNet, Large-Scale database, ILSVRC, Object Categorization	
新規性・差分	
手法	概要	
ILVRCで用いられるImageNetの提案.ImageNetはWordNetと呼
ばれる構造化された単語の概念に沿って画像が収集・構成さ
れる.1000万ものアノテーションされた画像データを含む.その
網羅性と大規模な画像データから,のちにDeep Learningの火
付け役にもなった.	
分野最大規模のデータベースをpublicに公開し,さらに追加で
きる仕組みを考案した.”As computer vision research
advances, larger and more challenging datasets are needed for
the next generation of algorithms.”として数年後にDeep
Learningによる躍進を支えるデータとなった.	
ImageNetはWordNetに従い画像を収集し,クラスが構造化されている.
WordNetではsynsetと呼ばれるフレーズに従い構成されていて各synsetに
500~1000枚のアノテーションされた画像が含まれるように収集した.ImageNet
は12のsubtree-- mammal, bird, fish, reptile, amphibian, vehicle, furniture,
musical instrument, geological formation, tool, flower, fruit に5,247synsetと(当
時)320万枚の画像が含まれる.さらに,各項目内のデータ分散や画像の網羅
性,収集法についても言及している.	
将来展望として,2009年当時のImageNetはWordNetの10%しか含んでいないと
している.これに対してAmazon Mechanical Turk (AMT)によるタグ付けにより,
5千万のアノテーションされたクリーンかつ多様性や解像度を考慮したデータを
公開したいとしている.さらには物体検出のための位置情報やセグメンテー
ション,cross-synset問題にも取り組むべくラベル付けをしたいと主張.	
Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, Li Fei-Fei, “ImageNet: A Large-Scale Hierarchical Image
Database”, in CVPR, 2009.	
【20】	
Links	
論文 http://www.image-net.org/papers/imagenet_cvpr09.pdf	
プロジェクト http://image-net.org/index
Keywords: Haar-like, Face Detection, Cascade, AdaBoost	
新規性・差分	
手法	
結果	
概要	
Viola-Jones論文.顔検出手法の研究を進める要因となった論
文.	
コントリビューションは3つあると主張.	
1.  Integral imageの提案.のちのHaar-like特徴となる	
2.  AdaBoostベースの学習方法	
3.  カスケード型識別器を提案	
まずHaar-like特徴量の提案があげられる.画像内の矩形領域内の明度の累
積を高速に処理するためのIntegral Imageを提案した.隣り合う領域の明暗差
の組み合わせが顔検出に非常に有効なことを実証した.有効なHaar-like特
徴を学習するためにAdaBoostが採用された.AdaBoostではあるクラスを分類
するために有効な特徴量を選択し,さらに次の特徴量が最初の特徴量が苦
手とするものを選択する.上位の特徴量のみで有効なベクトルを抽出できる
ため,識別性能のみならず計算コストの面でも良い性能を保証できる.さらに
は,カスケード型識別器として,識別器を複数連ねることにより,早期に異な
る特徴を棄却することができる.左はHaar-like特徴,右はカスケード型識別
器.	
右はMIT+CMUの顔データセットに対して学
習・識別を行った結果である.さらに,提案
手法は384x288pxlの画像に対して15fpsで顔
検出を実現した.使用PCはIntel Pentium III
だったので,当時としては画期的な性能を誇
る顔検出器であった.	
Paul Viola, Michael Jones, “Rapid Object Detection using a Boosted Cascade of Simple Features”, in CVPR,
2001.	
【21】	
Links	
論文
https://www.cs.cmu.edu/~efros/courses/
LBMV07/Papers/viola-cvpr-01.pdf	
wikipedia
https://en.wikipedia.org/wiki/Haar-
like_features	
参考
http://www.vision.cs.chubu.ac.jp/cvtutorial/
pdf/03objectdetection.pdf
Keywords: Unsupervised feature learning, Action Recognition, ISA	
新規性・差分	
手法	
結果	
概要	
行動認識のための特徴量をIndependent Subspace Analysis
(ISA)により自動学習し,行動の認識性能を高める.特に,CNN
ベースの自動特徴学習も行っている.	
HOGやSIFTのようなhand-craftedな特徴量ではなく,教師なし
学習により行動認識に有効な特徴量を設定する.	
ISAは有効な多変量解析手法であることが知られるが,ICAに比べて計算コス
トが高いことが知られる.提案手法では,時系列データのように膨大なデータ
を入力としても学習できるような仕組みを考案するため,Convolutional Neural
Networks (CNN)の畳み込みとプーリングの仕組みを参考にした.フィルタに
はparametric Gabor filterを用い,重みWの学習にISAを用いている.また,構
造をよりdeepにするためには左図のようにISAによるパラメータ学習とPCAの
白色化を行う.	
Hollywood2やYouTubeデータセットに対してもそれぞれ53.3%,75.8%と非
常に高い性能が出たことを示した.詳細な手法の比較は下記の表に示
す.	
Quoc V. Le, Will Y. Zou, Serena Y. Yeung, Andrew Y. Ng, “Learning hierarchical invariant spatio-temporal
features for action recognition with independent subspace analysis”, in CVPR, 2011.	
【22】	
Links	
論文 http://cs.stanford.edu/~quocle/LeZouYeungNg11.pdf	
著者ページ http://cs.stanford.edu/~quocle/publications.html
Keywords: Action Recognition, Attribute, 	
新規性・差分	
手法	
結果	
概要	
行動認識の分野にもアトリビュートを導入した論文.認識した行
動タグの付加だけでなく,その属性も判断可能.	
1.   トレーニングサンプルが集まらないような状況でもアト
リビュートの認識により効果的に分類可能	
2.  Latent SVMにより潜在的なクラス内分散をケア	
3.  手動で決定したアトリビュートとdata-drivenなアトリ
ビュートを組み合わせることが可能	
属性はクラス内分散の変化を捉えた識別性に優れるように選
択し,行動を説明するために適切なものを選ぶ.	
識別器にはLatent SVMを適用し,アトリビュートを潜在変数に
て表現し,クラス内の分散を考慮し適切なクラスにすることに成
功した.	
下の表はアトリビュートベースの行動
認識の結果である.学習サンプルが
少ない,かつより高度な記述が必要な
行動クラスに対してattributeベースの
行動認識は有効である.	
Jingen Liu, Benjamin Kuipers, Silvio Savarese, “Recognizing Human Actions by Attributes”, in CVPR, 2011.	
【23】	
Links	
論文 http://cvgl.stanford.edu/papers/cvpr11_liu_a.pdf	
データセット
http://www.ecse.rpi.edu/homepages/cvrl/database/AttributeDataset.htm
Keywords: Deformable Part Models (DPM), Object Detection, HOG	
新規性・差分	
手法	
結果	
概要	
CVPR2008に提案されたDPMの改良版.Pictorial Structureに
より構成された部位ベースモデルをカスケード型識別器で構成
することで,位置の制約条件から精度や計算コストを向上させ
る.	
Star-structured modelやdynamic programming, distance
transformにより,PASCAL datasetに対して高い精度を誇った
だけでなく,20倍の速度で検出することができた.	
右図は2つの異なるカスケード型識別器を走らせた結果である.Pictorial
Structureによる車と人物の尤度マップが異なることが確認できる.Star model
を適用しており,各パーツの位置を理想のパーツ位置と比較する.全てのパー
ツをそれぞれ計算して最終的なスコア値を得る.スコアをを閾値処理により棄
却するのであるが,その際の閾値をApproximately Admissible (PAA)により決
定する.左図は検出画像と自転車モデルの全体とカスケード型識別器の各識
別モデルである.	
右の表がprecision-recallであり,
概ねベースラインであるDPMから
精度を損なうことなくスピードを向
上させることに成功した.例えば
bicycleでは22倍のスピードアップを
達成し,各フレーム313msで処理で
きる.	
Pedro F. Felzenszwalb, Ross B. Girshick, David McAllester, “Cascade Object Detection with Deformable Part
Models”, in CVPR, 2010.	
【24】	
Links	
論文
http://www.cs.berkeley.edu/~rbg/papers/Cascade-Object-
Detection-with-Deformable-Part-Models--Felzenszwalb-
Girshick-McAllester.pdf	
プロジェクト http://www.cs.berkeley.edu/~rbg/star-cascade/
Keywords: Action Recognition, Space-time Neighborhood Features	
新規性・差分	
手法	
結果	
概要	
従来のbag-of-wordsモデルでは,識別的な特徴を見落としてし
まう可能性があったため,提案手法では隣接する時系列特徴
の形状を学習することで行動カテゴリに最も適した特徴を見つ
けることができる.	
提案手法は行動認識の問題に則した形式で特徴量を学習する
ことができる.	
Laptevらの提案したHOG/HOF特徴(level-0 feature)を取得し,それらの時系
列近傍をPCA次元圧縮した結果をlevel-1 featureとして記述.	
さらに近傍特徴を各スケール・時系列的に階層的に構築し,Multiple Kernel
Learing (MKL)による識別器を生成.χ二乗距離によるカーネルにてSVM識
別器を生成する.level-2 featureは,level-1を各ワードとして見たより上位の
高次特徴を示す.	
Level-0は[Laptev+, CVPR2008]の
結果(85.49%)であり,カーネル学習
(84.43%),Level-0, 1, 2の統合によ
る提案手法が最も高い精度
(87.27%)でUCF Sports datasetの
行動識別を実現した.	
	
Adriana Kovashka, Kristen Grauman, “Learning a Hierarchy of Discriminative Space-Time Neighborhood
Features for Human Action Recognition”, in CVPR, 2010.	
【25】	
Links	
論文
http://www.cs.utexas.edu/~grauman/papers/
kovashka_cvpr2010.pdf	
プロジェクト
http://vision.cs.utexas.edu/projects/
activity_neighborhood_features/
Keywords: Actionlet, Action Recognition, Kinect	
新規性・差分	
手法	
結果	
概要	
Kinectを用いた姿勢ベース行動認識手法の提案.Actionlet(動
作の最小単位)から特徴選択により高精度な行動認識を実現し
た.	
姿勢ベースの関節位置推定のようなノイズを含む場面におい
ても有効な特徴量を提案しただけでなく,有効な特徴をサブ
セットとして表現する方法についても考案した.	
Local Occupancy Pattern (LOP)により距離画像のアピアランスを評価すること
ができ,人物がインタラクションする物体の情報を取得可能である.また,姿勢
情報に関してもFourier Temporal Pyramidを適用することでノイズに対しても頑
健な記述ができるようになり,Kinectのように関節の検出にゆらぎが発生しても
時系列特徴量を記述可能である.さらには,Actionlet Ensemble Modelを提案す
ることにより,人物の姿勢から行動識別に有効なサブセットを構成する.Mining
では信頼度(Confidence)と曖昧度(Ambiguity)を定義し,曖昧度が低く信頼度が
高い関節位置を適用することで姿勢ベースの行動認識が高精度になる.	
CMU MoCap datasetやMSRAction 3D dataset,
MSR DailyActivity3D datasetにて提案手法の有
効性を検証した.MSRAction 3Dにて88.2%(従来
法74.7%),Daily Activity 3Dにて85.75%(従来法
78%),CMU Mocapにて98.13%(従来法98.27%)の
識別率と非常に高い数字を出した.	
Jiang Wang, Zicheng Liu, Ying Wu, Junsong Yuan, “Mining Actionlet Ensemble for Action Recognition ”, in
CVPR, 2012.	
【26】	
Links	
論文
http://www.msr-waypoint.net/en-us/um/
people/zliu/papers/joint_modeling_final.pdf	
著者
http://users.eecs.northwestern.edu/~jwa368/
Keywords: Action Bank, High-level representation, Action Recognition	
新規性・差分	
手法	
結果	
概要	
Object Bankを参考にして,時系列の行動認識においても
ビュー毎の特徴抽出をボリュームデータにしてMax-poolingを行
う,High-levelな特徴表現方法を実現.	
Object Bankの記述に対して,時系列情報を用いることで行動
認識用の識別器へと拡張させた.ビューの変化や時系列のテ
ンポの変化へ対応することができた.また,これにより行動認
識にhigh-levelな特徴記述方法を持ち込んだとしている.	
Object Bankを参考にしているが,さらにビューポイントや時系列のテンポの差
を見分けられるように改良した.Naのフィルタ,Nsの時系列スケール,73種類
の3次元spatial pyramidにてmax-poolingを適用するのでNa X Ns X 73 次元の
特徴ベクトルが抽出できる.識別器には標準的なSVMを用いており,損失項に
はL2正則化のHinge-lossを用いる.行動のテンプレートは205種類からなり,
UCF50/KTHからFilter Bankを構成した.	
Action Bankは各データセット
にて最先端の精度を達成し
た.KTH(98.2%), UCF
sports(95.0%), UCF50
(57.9%), HMDB51 (26.9%)であ
る.	
Sreemanananth Sadanand, Jason Corso, “Action Bank: A High-Level Representation of Activity in Video”, in
CVPR, 2012.	
【27】	
Links	
論文
http://www.cse.buffalo.edu/~jcorso/pubs/
jcorso_CVPR2012_actionbank.pdf	
プロジェクト
http://www.cse.buffalo.edu/~jcorso/r/
actionbank/	
著者 http://web.eecs.umich.edu/~jjcorso/
Keywords: Objectness, selective search	
新規性・差分	
手法	
結果	
概要	
Superpixelベースの手法にてセグメンテーションした結果を適応
的に統合し,物体検出のための候補領域とする.なお,その後
オリジナルのR-CNNの物体候補領域抽出方法として適用され
た.	
Exhaustive Search (画像の全探索)よりも処理時間を低減し,な
おかつすべてのスケールや物体形状にも対応可能である.
superpixel領域を適応的に統合することで高速かつ柔軟な形状
変化に対応可能である.	
“Efficient Graph-based Image Segmentation”によりsuperpixel領域単位に分
類する.さらにはこの領域に対して類似度計算,隣接領域の統合を繰り返す
ことで各スケールや形状に関係なく物体の候補領域を抽出できる.特徴量に
は色やテクスチャ,サイズ,位置関係を用いる.初期パラメータとして閾値を
複数用いて異なる領域を抽出する処理も行う.下の表は3つの戦略であり,一
番上は単一の特徴量にて試した結果.次にSelective Search Fastでは速度重
視の方法をとっており,組み合わせの数が少ない手法である.精度をとるの
であればSelective Search Qualityが一番精度が高かった.Fast/Qualityでは
それぞれ8/80の組み合わせを実行することになる.	
平均して正解の物体矩形とのオーバーラップ領域が87.9% (10,097の領域
に対し),Recall rateは99%を記録するなど良好な性能を実現した.	
Jasper R. R. Uijlings, Koen E. A. van de Sande, Theo Gevers, Arnold W. M. Smeulders, “Selective Search for
Object Detection”, in IJCV, 2013.	
【28】	
Links	
論文
https://ivi.fnwi.uva.nl/isis/publications/2013/UijlingsIJCV2013/
UijlingsIJCV2013.pdf	
プロジェクト
https://ivi.fnwi.uva.nl/isis/publications/bibtexbrowser.php?
key=UijlingsIJCV2013&bib=all.bib
Superpixelの出力と順次統合した結果	
PASCAL VOCに対する性能:recall-正解のうち正解であると予測された
ものの割合,MABO (mean average best overlap)-もっとも重なり率が高
い矩形の平均,windows-候補領域の数
Keywords: R-CNN, CNN, Selective Search	
新規性・差分	
手法	
結果	
概要	
Regions with CNN (R-CNN)のオリジナル論文.候補領域抽出
と畳み込みニューラルネットワーク(CNN)の特徴量+SVMにより
分類することで物体検出を行う.	
CNNの研究では主に物体識別問題が行われてきた.しかし,
位置まで含めて特徴量を取得することも重要な課題である.R-
CNNでは物体候補領域を抽出し,領域内で識別を実行するこ
とにより位置まで含めた物体検出を実現することができる.	
次ページにR-CNNのフローを示す.(1)画像入力 (2) 2000前後の物体候補領
域を抽出する.本論文ではselective search (fast mode)を用いているが,
EdgeBoxes, GOP and LPO, MCG, RIGOR, などに代替可能である.(3) CNN
アーキテクチャの中間層から特徴量を取り出す.ここではCaffe/Decafの実装
であるAlexNetを用い,同Decaf論文[Donahue+, ICML2014]にてもっとも精度
の良かった第6, 7層の特徴量(4096次元)を使用.warped regionとあるが,これ
は一定のサイズ(227x227pixels)にリサイズすることである. (4) SVMにより候
補領域内の画像を評価する.信頼度が高い領域のみを認識結果として出力
する.	
また,エラー率を下げるためにDPMでも採用されたbounding-box
regression(bbg)を採用した.bbgでは候補領域Pから正解領域Gへの線形関数
である変換マップdを生成することが目的である.	
PASCAL VOC 2007で58.8%, 同2010で53.7%,同 2012にて53.3%の精度を
達成した.DPMでは33.4%(PASCAL VOC 2010)の認識結果であるため,
かなりの精度向上を実現した.処理時間はGPUにて13s/image, CPUにて
53s/imageであった.	
Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik, “Rich feature hierarchies for accurate object
detection and semantic segmentation”, in CVPR, 2014.	
【29】	
Links	
論文 http://www.cs.berkeley.edu/~rbg/papers/r-cnn-cvpr.pdf	
プロジェクト https://github.com/rbgirshick/rcnn	
【物体候補領域】	
EdgeBoxes: matlab code	
GOP and LPO: python code	
MCG: matlab code	
RIGOR: matlab code
Keywords: R-CNN, Convolutional Neural Networks (CNN)	
新規性・差分	
手法	
結果	
概要	
R-CNNの処理を高速化.従来のR-CNNに対して9倍,Heらの
SPPnetに対して3倍の高速化を実現した.	
1.  R-CNNやSPPnetよりも精度向上	
2.  Multi-task lossを用いたシングルステージの学習	
3.  全てのレイヤを学習により更新	
4.  特徴をキャッシュするストレージは不要	
基本的には物体候補領域を抽出してconv.やmax-poolingにおける特徴マップ
を学習.	
【学習】特徴マップにおけるRoIプーリングにより任意の領域サイズを入力として
固定の特徴ベクトルを出力する(学習や検出時に比較できるため).pre-trained
モデルからの初期化について,全結合層とsoftmax層がRoI pooling層に置き換
えられる.なお,RoI pooling層は誤差逆伝播法も処理可能である.Multi-task
lossではK+1(物体Kクラス+背景1クラス)層の分類において特徴ベクトルを入力
としたときのsoftmax層の分類誤差L_cls(p, u)と位置ずれに対する誤差L_loc(t,
v)から分類やローカライズを補正するためのマルチタスク学習を行う.	
【検出】SVD(特異値分解)による低ランク近似を利用して,全結合層のパラメー
タを削減して高速化を図る.	
VOC 2007, 2010, 2012に対して良好な結果が出ただけでなく,高速な学習や
fine-tuningによりさらに精度が向上した.下図が成果である.	
Ross Girshick, “Fast R-CNN”, in ICCV, 2015.	【30】	
Links	
論文 http://arxiv.org/pdf/1504.08083v2.pdf	
著者 http://www.cs.berkeley.edu/~rbg/	
GitHub https://github.com/rbgirshick/fast-rcnn
Keywords: Faster R-CNN, Region Proposal Networks (RPN)	
新規性・差分	
手法	
結果	
概要	
物体候補領域をニューラルネットワークにて計算するRegion
Proposal Networks (RPN)を提案することで,End-to-Endで候
補領域抽出~物体検出が可能になった.	
物体候補領域を別処理により設定する必要があったが,Faster
R-CNNでは物体候補領域もCNNアーキテクチャ内で抽出可
能.実験では約5FPSでの物体検出やPASCAL VOCで最高精
度を記録した.	
入力の画像サイズを適応的にした.画像を入力すると中間層
(intermediate layer)を通り抜け物体候補領域(reg layer)と領域
ないのスコア値(cls layer)を計算する.	
PASCAL VOC 2007にて73.2%, 2012にて70.4%を達成した.候補領域の数
も最大300としている.	
Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun, “Faster R-CNN: Towards Real-Time Object Detection
with Region Proposal Networks”, in NIPS, 2015.	
【31】	
Links	
論文 http://arxiv.org/pdf/1506.01497v2.pdf	
GitHub (Python) https://github.com/rbgirshick/py-faster-rcnn	
GitHub (Matlab) https://github.com/ShaoqingRen/faster_rcnn
R-CNNの流れ	
	
R-CNN [CVPR2014]	
Selective Search [IJCV2013]やBING [CVPR2014]など物体候補領域抽出 + 227x227pixelsの画像からAlexNetの第
6,7層を取り出し,bounding box regressionにより矩形の当てはめ	
	
R-CNN+ [PAMI2015]	
CNN特徴をAlexNetからVGGNetに変更 Pool5が最も精度が高いことが判明	
	
Fast R-CNN [ICCV2015]	
Selective Search+CNN特徴という形が基本だが,RoIプーリングにより任意の領域サイズを入力として固定の特徴ベ
クトルを出力.227x227pixelsの畳み込みを避けることで高速化.Multi-task lossやすべての層のパラメータ更新によ
り精度自体も向上.	
	
Faster R-CNN [NIPS2015]	
Fast R-CNNにてボトルネックになっていた物体候補領域抽出をRegion Proposal Networks (RPN)に置き換えることで
End-to-Endによる物体検出を実現.最適なRegion Proposal学習のためのLoss Functionも考慮.
Keywords: dataset, action recognition, mind’s eye	
新規性・差分	
データセットの概要	
結果	
概要	
米国国防総省DARPAのMind’s Eyeプロジェクトにて作られた
行動認識用のデータセットを提案する.	
行動認識の場面において,YouTubeなどマルチメディアの解析
や実験的な環境ではなく,実際の監視映像において問題を解
決するためのデータセット.	
現在までの行動認識データセットは人物が大きく映り込んでいたが,今回の
Large Continuous Action Dataset (LCA)は例えば監視カメラレベルの映像
で,人物のスケールが小さい場合にもいかに行動認識をするかを求める.行
動は24種類であるが,最大の違いは5人のアノテータがそれぞれラベルづけ
をしているため,正解値にばらつきがあることである.	
State-of-the-artなアルゴリズム,例えばAction Bank (16.667%)や
Improved Trajectories (15.556%),Dense Trajectories (14.074%)でも限ら
れた精度でしか行動を認識できないことが判明した.	
Daniel Paul Barrett, Ran Xu, Haonan Yu, Jeffrey Mark Siskind, “Collecting and Annotating the Large
Continuous Action Dataset”, in arxiv, 2015.11.	
【32】	
Links	
論文 http://arxiv.org/pdf/1511.05914v1.pdf	
プロジェクト http://www.visint.org/datasets	
	
今後,さらに洗練されたア
ルゴリズムを考案する必要
性が出てきた.
Keywords: Ego-motion, First Person Vision	
新規性・差分	
手法	
結果	
概要	
エゴモーションにおいて,自分がどう動いているか(how I
move),またどのような位置にいるか(how my visual
surroundings change)を推定する.その際の有効な特徴につい
ても学習する.	
エゴモーションの自律的な移動に関して,分離性が高い特徴量
を学習する.物理的な運動に対する特徴推定は本研究が初め
てであると主張.	
特徴として,3次元空間の位置,ロール・ピッチ・ヨー角を取得する.画像とこ
れらの運動をペアとして学習して対応付けておく.下図はKITTIデータセットに
おける右折・左折・直進の例であり,この場合にはforward distanceとヨー角が
もっともエゴモーションを説明できる変数であることがわかる.最適化としては
特徴空間パラメータΘとDxDの有効な特徴マップMのエラー率を最小にするよ
うに学習する.	
Dinesh Jayaranman, Kristen Grauman, “Learning image representations equivariant to ego-motion”, in ICCV,
2015.	
【33】	
Links	
論文 http://arxiv.org/pdf/1505.02206.pdf
Keywords: Visual Turing Test	
新規性・差分	
手法	
結果	
概要	
画像に対する質問を自動で生成してくれる,Visual Turing Test
の手法を考案.画像の物体認識やその相対的な関係性などを
記述.	
CNN+RNNのアプローチにより,従来のVisual Turing Testの精
度を大幅に向上させた.	
Recurrent Neural Network (RNN)をベースとしたアプローチを提案する.CNNに
より物体を認識し,それらの相対的な位置関係を記述.RNNでは言語を扱い,質
問文や返答を認識結果から照合するために用いる.モデルは画像xや質問qが
与えられた時の返答aを探索する問題であり,すべてのパラメータθも判断して
返答の集合Aからベストなものを選ぶ.RNNのモデルには
[Donahue+, CVPR2015]を,CNNにはGoogLeNetを用いる.	
指標としては,[Malinowski+, NIPS2014]に記載されているWUP (Wu-
Palme) scoresを参考にした.DAQUAR dataset (12,468の質問とそれに対
する返答文を含む)をもちいる.識別対象の物体数は37である.精度は
19.43%,WUPSスコアで25.28(0.9),62.00(0.0)であった.	
Mateusz Malinowski, Marcus Rohrbach, Mario Fritz, “Ask Your Neurons: A Neural-based Approach to
Answering Questions about Images”, in ICCV, 2015.	
【34】	
Links	
論文
https://www.d2.mpi-inf.mpg.de/sites/default/files/
iccv15-neural_qa.pdf	
プロジェクト
https://www.mpi-inf.mpg.de/departments/computer-
vision-and-multimodal-computing/research/vision-and-
language/visual-turing-challenge/	
YouTube
https://www.youtube.com/watch?v=QZEwDcN8ehs	
	
# WUP (Wu-Palme) scoresは言語の精度を示す指標であ
り,スコアが高いほど曖昧度が低く精度が高い.
Keywords: Pedestrian Detection, Deep Learning, Convolutional Neural Networks (CNN), Cascade	
新規性・差分	
手法	
結果	
概要	
CNNとの特徴量とカスケード識別器による歩行者検出の論文.
Caltech pedestrian benchmarkやKITTI datasetに対して歩行者
検出の実験を行い,良好な精度を達成.	
Complexity-awareなブースティング手法を提案し,カスケード識
別を実現したことや,プーリングの仕組みにより効果的にCNN
特徴やHand-craftedな特徴を統合した.	
有効なブースティングの手法であるComplexity-Aware Cascade
Training (CompACT)を提案.学習ではAdaBoostの出力F の(empirical)
リスク関数RE[F] や(complexity)リスク関数Rc[F] から構成されるL[F] =
RE[F]+ηRc[F]をLagrangianにより最適化する.ACF特徴を前処理として
用い,特徴量のプーリングにはSelf-similarity (SS) feature,
Checkerboard feature, HOG, CNNを用いる.	
図のように,Caltech
datasetに対してエラー率が
11.7%と最高性能を達成し
た.CompactはACF + small
CNN featureを用い,
Compact-Deepは深層学習
にVGG modelも追加した.	
Zhaowei Cai, Mohammad Saberian, Nuno Vasconcelos, “Learning Complexity-Aware Cascades for Deep
Pedestrian Detection”, in ICCV, 2015. (oral)	
【35】	
Links	
論文 http://arxiv.org/abs/1507.05348v1	
著者(Z.Cai) https://sites.google.com/site/zhaoweicai1989/	
	
歩行者検出主要特徴	
ACF 	
SS	
Filter Channel Feat. 	
katamari 	
Spatial pooling+
Shenfeng He, Rynson W. H. Lau, “Oriented Object Proposals”, in ICCV, 2015.	
【36】	
Keywords: Object Proposal, Objectness	
新規性・差分	
手法	
結果	
概要	
傾き(Orientation)を含めて物体の候補領域を推定する手法
Oriented Object Proposals (OOPs)を提案.	
・傾きが発生した場合にも補正することが可能	
・修正されたウィンドウで候補領域を得ることができる	
・余分な背景を取得することが低減し,高いRecallを実現できる	
全てのウインドウ探索を避けるために異なるポジションに配置された物体から,ス
ケールやアスペクト比計算を同時に処理する方法を考案.生成的確率モデルの構
築によりピクセルごとの計算まで可能にした.またそのために背景確率まで計算す
る.そのためには,Gradient MapやStructured Edges [Dollar+, ICCV2013]を適用す
る.対数尤度により局所最適解を計算し,物体形状は共分散行列により表現され
る.最終的な物体の尤度(l)は下記の式により決定し,背景 (l^{bg}),Structured
Edges (l^{e}),Gradient Map (l^{g})から総合的に判断される.a1, a2, a3はデータか
ら線形回帰により決定づけられる.	
PASCAL VOC 2007で実験したところ,最先端の精度で物体を検出することができ
た.さらには,高いRecall rateを実現し,余分な物体候補領域を削減することに成
功した.	Links	
論文
http://www.shengfenghe.com/uploads/1/5/1/3/15132160/
oop_iccv15.pdf	
プロジェクト
http://www.shengfenghe.com/oriented-object-proposals.html	
YouTube https://www.youtube.com/watch?v=_iS9qoYWKpk	
図は精度の比較である.左図はIoU (バ
ウンディングボックスの重なり)が50%,
右図は80%の時の精度である.正規の
手法で比較すると必ずしも最先端では
ないが,物体検出で計測するとかなり
高い精度で検出が可能.
Mihir Jain, Jan C. van Gemert, Thomas Mensink, Cees G. M. Snoek, “Objects2action: Classifying and localizing
actions without any video example”, ICCV, 2015.	
【37】	
Keywords: Zero-shot Learning	
新規性・差分	
手法	
結果	
概要	
行動認識をサンプルなし(Zero-shotベース)に理解する方法で
ある.これに対して,objects2actionと呼ばれる,word2vecでも
用いられるskip-gram表現を用いて数千種類にものぼる物体の
カテゴリを表すことである.ある行動に対して複数の物体が概
念としてエンコードされる.	
主な新規性としてobjects2actionという表現方法を提案すること
である.従来のZero-shotベースの方法と異なる点は,属性情
報や,転移のためのクラス-属性のマッピングを与えることなし
に行動を認識する点である.	
図はobjects2actionのデータフローである.訓練クラスラベルYとZero-shotテストク
ラスZに重なりはないものとする.サンプルXが与えられ,D={X,Y}が与えられ学習を
実行する.通常のZero-shot学習と異なる点は,(i)テストが行動Zを分類するため,
テストサンプルがビデオVであること,物体のラベルYはImageNetから取得されるも
のとする (ii)物体の意味空間Yから行動ラベルZへと転移させる点,である.特徴の
表現として,Average Word Vectors (AWV)やFisher Word Vectors (FWV)を適用し
た.	
左表が結果である.AWVやFWVをそれ
ぞれUCF101, HMDB51, THUMOS14,
UCF Sportsに適用した.また,実験で
は物体の転移や行動の転移について
も比較して考察した(右表).	
Links	
論文
http://isis-
data.science.uva.nl/
cgmsnoek/pub/jain-
objects2action-iccv2015.pdf
Justin Johnson, Andrej Karpathy, Li Fei-Fei, “DenseCap: Fully Convolutional Localization Networks for Dense
Captioning”, in arxiv, 201511.	
【38】	
Keywords: Image Captioning, DenseCaptioning	
新規性・差分	
手法	
結果	
概要	
Dense Captioningは画像内の生成文を密にすること.物体の検
出結果やその相対的な位置関係などから文章を生成する.物
体認識にはFully Convolutional Localization Network (FCLN),
言語処理にはRecurrent Neural Network (RNN)を用いる.	
「画像識別」では画像に対してSingle Labelしか用意できない,
「物体検出」においても,画像中の物体に応じたタグ付けのみ
である.「画像説明文」ではより画像内の理解が進んでいるが,
さらに画像内にて説明文のラベルを増したことが新規性であ
る.直感的には1枚の画像から領域ごとに説明文を付けること
である.	
また,Faster R-CNNにおいては候補領域を抽出するRegion
Proposal Network (RPN)を提案し,4ステップの最適化を実装し
たが,この方法ではRoIプーリングの代わりにspatial soft
attention mechanismを導入し誤差伝播できるようにした.	
Localizationも含めて説明文のための画像を抽出するFully Convolutional
Localization Layer (FCLL)を提案.基本的にCNNはVGGモデルを適用し,FCLLは
5th-pooling-layer以降の代わりとして用いられる.また,Faster R-CNNのRPNを参
考にするが,RoIプーリングをSpatial Soft Attention Mechanismに置き換える.候
補領域の抽出では,最大の候補数を300に設定,座標やそれに対するスコアや特
徴量を抽出し,Bounding Box Regressionも行う.Bilinear Interpolationは候補領域
のサイズやアスペクト比の変動を考慮して特徴抽出.RNNの言語モデルは最近の
従来法を参考にしており,Long-Short Term Memory (LSTM)を使用.	
Visual Genome Dataset (VGD)を使用した.VGDには94,000枚の画像,4,100,000も
の領域ベースのキャプショニングが付加されている.	
Links	
論文 http://arxiv.org/pdf/1511.07571v1.pdf	
著者 http://cs.stanford.edu/people/karpathy/	
http://cs.stanford.edu/people/jcjohns/	
データセット https://visualgenome.org/
Bolei Zhou, Aditya Khosla, Agata Lapedriza, Aude Oliva, Antonio Torralba, “Learning Deep Features for
Discriminative Localization”, in arXiv 1512, 2015.	
【39】	
Keywords: Object Localization, Class Activation Mapping	
新規性・差分	
手法	
結果	
概要	
畳み込み層のマップを利用して物体検出を実行する.	
Class Activation Maps (CAM)を提案して,物体検出のための
尤度マップを作成する.	
下図のように畳み込み層に立ち返って活性化のマップと重みを累積する.全結合
層では位置情報が消えてしまうが,畳み込み層に残る位置情報とクラスの確率値
を累積して計算.アーキテクチャはGoogLeNetやNetwork in Network (NIN)と類似
したものを適用し,出力層の手前の畳み込み層から取り出した活性化関数f_k(x,y)
を使用.この場合,softmax Scに直結する重みはクラス数に一致するため,各クラ
スの尤度と畳み込みに残る位置を取得できるという仕組み.	
ILSVRC2014の物体検出チャレンジにおいて37.1%のエラー率(top-5)と,フルCNN
学習モデル34.2%に近い精度を実現した.左はエラー率の比較.	
Links	
論文 http://arxiv.org/pdf/1512.04150.pdf	
プロジェクト http://cnnlocalization.csail.mit.edu/
Olga Russakovsky, Li Fei-Fei et al., “ImageNet Large Scale Visual Recognition Challenge”, in IJCV, 2015.	
【40】	
Keywords: ImageNet, ILSVRC, Object Recognition	
内容	
結果	
概要	
ILSVRCにて用いられるImageNetデータセットのジャーナル版.CVPR2009のImageNet論文と異なる点は,データの拡張や2014年までのチャレンジの結果
などが記述されている点である.ここではアップデートや詳細情報について記述する.	
・2010年から2014年までで50以上のチームが参加した	
・関連する試みはCaltech-101, Caltech-256,
TinyImages dataset, WordNet, LabelMe, SUN, MSRC,
Stanford Background, Berkeley Segmentation, OpenSurfaces,
PASCAL VOC, COCO, Labeled Faces in the Wild (LFW),
KITTI	
・アノテーションにはAmazon Mechanical Turkを用いる 	
・タスクはImage Classification (2010-2014),Single-object
localization (2011-2014),Object detection (2013-2014)	
・Classification taskのデータはFlickrや他検索エンジンから抽
出	
・	
次から2ページに渡り,ILSVRC2010-2014の結果を表示.	
Links	
論文 http://arxiv.org/pdf/1409.0575.pdf	
プロジェクト http://www.image-net.org/	
・カテゴリ分けはWordNetに基づいて行う	
・カテゴリ毎にバリエーションをもたせて画像を収集するために,複数の画像検索
エンジンを用いている.	
・さらにはアノテーションの問題.クラウドソーシングによりバウンディングボックス
やカテゴリを挿入.
Alex Kendall, Vijay Badrinarayanan, Roberto Cipolla, “Bayesian SegNet: Model Undertainty in Deep
Convolutional Encoder-Decorder Architectures for Scene Understanding”, in arXiv 1511, 2015.	
【41】	
Keywords: Bayesian SegNet, Semantic Segmentation	
新規性・差分	
手法	
結果	
概要	
セマンティックセグメンテーションを行うSegNetを提案した.ネッ
トワークアーキテクチャにて特徴のエンコーディングとセグメン
テーション画像を復元していくでコーディング(Encoder-
Decorder)を行う.	
主な新規性としては,Encoder-DecorderのCNNアーキテ
クチャに対し,Dropoutを確率的にして効果的なセグメン
テーションを実現したことである.ソフトマックスによる出
力がそのままセグメンテーション結果となっているため,
出力層のDropoutが非常に重要であるという提案.	
アーキテクチャは下図に示される通り13層構成で,Encoder-Decorderの構造を保
持している点や出力であるソフトマックス層のDropoutにてMonte Carloサンプリン
グを導入した.これは,セマンティックセグメンテーションの精度を向上させるため
の工夫である.畳み込みの重みWはベルヌーイ分布にてサンプリングすることで,
パラメータの調整が非常に効率化した.	
CamVid Road,SUN RGB-D,VOC 2012に対して実験を行った.Dropoutサンプリン
グが有効である(Sampling数は10~20で飽和)ことや,概ね精度が向上していること
が判明した.下はSUN RGB-DのSemant. Seg.の結果.	
Links	
論文 http://arxiv.org/pdf/1511.02680v1.pdf	
プロジェクト(コードあり) http://mi.eng.cam.ac.uk/projects/segnet/	
YouTube https://www.youtube.com/watch?v=e9bHTlYFwhg
Tomas Mikolov, Kai Chen, Greg Carrado, Jeffrey Dean, “Efficient Estimation of Word Representations in
Vector Space”, ICLR, 2013.	
【42】	
Keywords: Word2Vec	
新規性・差分	
手法	
結果	
概要	
Word2Vecの論文.単語の概念間の計算を行うために,大規模
なテキストデータからその統計値を計算した.	
単語間の意味的な関係性を記述・計算できるようにした画期的
な手法.単語の分散表現を学習する手法にはNNLMがあるが,
これはニューラルネット言語モデルであり,フィードフォワード
NNを線形射影層と非線形隠れ層とを組み合わせ,単語ベクト
ル表現と統計的言語モデルを同時に学習する.	
例えば,vector(“King”) – vector(“Man”) + vector(“Woman”) = vector(“Queen”)な
ど,概念間の計算を効率的にやりとりできるようにした.ニューラルネットを用いて
いるが,DistBelief[Dean+, NIPS2012]により学習した.	
・単語の表現としてはContinuous Bag-of-Words (CBOW)を採用した.これは,現在
の単語の周辺の単語を用いて現在の単語を予測する表現である.普通のBOWと
は異なり,分散表現を用いることが可能.	
・Continuous Skip-gramモデルでは文脈から現在の単語を予測するのでなく現在
の単語から周辺の単語を予測する.文脈長を広げると単語ベクトルの質はよくなる
が,計算量が大きくなるし,離れれば離れるほど現在の単語と無関係になるので,
距離に応じてダウンサンプリングする.	
6億を超える単語数を保持するGoogleNewsからモデリングを行った.下の表は783
万単語から学習された300次元Skip-gramの出力である.	
Links	
論文 http://arxiv.org/pdf/1301.3781.pdf	
プロジェクト(コードあり) https://code.google.com/p/word2vec/ 	
SlideShare
http://www.slideshare.net/mamoruk/iclr2013-word2vec
Yangqing Jia, Evan Shelhamer, Jeff Donahue, Sergey Karayav, Jonathan Long, Ross Girshick, Sergio
Guadarrama, Trevor Darrell: Caffe: Convolutional Architecture for Fast Feature Embedding, ACM Multimedia,
2014.	
【43】	
Keywords: Caffe, Deep Learning	
新規性・差分	
手法	
他フレームワークとの比較	
概要	
UC Berkeleyが提供する,深層学習フレームワークであるCaffe
の論文.Caffeでは主に画像向けのConvolutional Neural
Networks (CNN)を提供した.	
他の画像認識用ディープラーニングと比較して高速な実装を提
供した.また,基本的なPre-trainedモデルが備えられているこ
とや,開発のコミュニティが充実していることも大きなポイントの
ひとつである.	
LeNet-5やILSVRC2012 winnerのAlexNet,より深い構造のVGGNetやGoogLeNet
が初めから実装されている,もしくはダウンロードして簡易的に使用することが可
能である..prototxtファイルを用いると,中間層から抽出した特徴を用いることがで
きる.また,ImageNet+αの学習としてFine-tuningが用意されている.フルスクラッ
チの学習も,自ら学習データやパラメータ,CNNの構造を設定することで可能.
Fine-tuningを行い,コンペティションの1,000クラスのみならず,10,000クラスの分類
も配布している.	
下に他のフレームワークとの比較を示している.	
Links	
論文
http://ucb-icsi-vision-group.github.io/caffe-paper/
caffe.pdf	
プロジェクト(コードあり) http://caffe.berkeleyvision.org/ 	
山下隆義先生(中部大)の資料:Caffeの扱い方についてスラ
イドの最後の方に非常によくまとめられている
http://www.slideshare.net/Takayosi/deep-learning-seminar
Keywords: R-CNN, Deep Learning, Convolutional Neural Networks (CNN), Object Detection	
新規性・差分	
手法	
結果	
概要	
CNNの構造の中で物体検出できる仕組みを実装した.	
R-CNNはselective searchにより物体候補領域を抽出し,CNN
により識別する手法であるが,CNNの構造内で検出までできる
かもしれないという主張.Spatil Pyramid Pooling (SPP)[1]や
selective searchによる物体検出の解析と検討をしている.	
まず,SVMは冗長でありCNNの構造内で識別まで全て完結することができる
ということを検討.	
次にSPPとbounding box regressionをbank of filterの枠組みの中で統合.ス
ケーリングについても考察し,単一スケールでも処理速度を保てるようにし
た.	
表に結果を示す.各項目について有効性を確認しただけでなく,処理速
度も1フレーム160msであり,従来の16倍以上(2.5s)高速にした.	
Karel Lenc, Andrea Vedaldi, “R-CNN minus R”, in BMVC, 2015.	
【44】	
Links	
論文 http://www.robots.ox.ac.uk/~vedaldi/assets/pubs/lenc15rcnn.pdf	
著者 (Andrea Vedaldi) http://www.robots.ox.ac.uk/~vedaldi/index.html	
コードMatConvNet: CNN for MATLAB http://www.vlfeat.org/matconvnet/	
[1]
K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional
networks for visual recognition. In ECCV, 2014.
Keywords: Convolutional Neural Networks (CNN), Deblurring, Blind Decovolution	
新規性・差分	
手法	
結果	
概要	
Convolutional Neural Networks (CNN)を用いた,blind
deconvolutionに関する研究.文字OCRのための文字認識に着
目した.	
Schulerら[27]の手法が比較として挙げられるが,CNNのネット
ワークが小規模であり,画像の復元もスタンダードなデブラー
の手法である.	
x = F(y, θ)のθを求めるためにに(x,y)のペアを学習する.文字
は非常に強い事前情報を保持しており,学習ベースの復元は
有効である.本稿で用いられるCNNの構造は15層である.フィ
ルターやチャネル数は表の通り.	
下は実際にCNNを用いてデブラーをした結果である.OCRを用いて処理した
結果,通常通り文字認識ができることを実証した.	
Michal Hradis, Jan Kotera, Pavel Zemcik, Filip Sroubek, “Convolutional Neural Networks for Direct Text
Deblurring”, in BMVC, 2015.	
【45】	
Links	
論文 http://bmvc2015.swansea.ac.uk/proceedings/papers/paper006/paper006.pdf	
概要
http://bmvc2015.swansea.ac.uk/proceedings/papers/paper006/abstract006.pdf	
プロジェクト http://www.fit.vutbr.cz/~zemcik/pubs.php?id=10922
ご質問・コメント等ありましたら,cvpaper.challenge@gmail.com / Twitter@CVPaperChallengまでお願いします.

More Related Content

What's hot

【2015.08】(2/5)cvpaper.challenge@CVPR2015
【2015.08】(2/5)cvpaper.challenge@CVPR2015【2015.08】(2/5)cvpaper.challenge@CVPR2015
【2015.08】(2/5)cvpaper.challenge@CVPR2015
cvpaper. challenge
 
【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016
cvpaper. challenge
 
【2016.07】cvpaper.challenge2016
【2016.07】cvpaper.challenge2016【2016.07】cvpaper.challenge2016
【2016.07】cvpaper.challenge2016
cvpaper. challenge
 
【2016.05】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016【2016.05】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016
cvpaper. challenge
 
【2016.06】cvpaper.challenge2016
【2016.06】cvpaper.challenge2016【2016.06】cvpaper.challenge2016
【2016.06】cvpaper.challenge2016
cvpaper. challenge
 
【2017.02】cvpaper.challenge2017
【2017.02】cvpaper.challenge2017【2017.02】cvpaper.challenge2017
【2017.02】cvpaper.challenge2017
cvpaper. challenge
 
【2017.03】cvpaper.challenge2017
【2017.03】cvpaper.challenge2017【2017.03】cvpaper.challenge2017
【2017.03】cvpaper.challenge2017
cvpaper. challenge
 
【2016.12】cvpaper.challenge2016
【2016.12】cvpaper.challenge2016【2016.12】cvpaper.challenge2016
【2016.12】cvpaper.challenge2016
cvpaper. challenge
 
cvpaper.challenge@CVPR2015(Attribute)
cvpaper.challenge@CVPR2015(Attribute)cvpaper.challenge@CVPR2015(Attribute)
cvpaper.challenge@CVPR2015(Attribute)
cvpaper. challenge
 
【2015.08】(3/5)cvpaper.challenge@CVPR2015
【2015.08】(3/5)cvpaper.challenge@CVPR2015【2015.08】(3/5)cvpaper.challenge@CVPR2015
【2015.08】(3/5)cvpaper.challenge@CVPR2015
cvpaper. challenge
 
【2015.07】(1/2)cvpaper.challenge@CVPR2015
【2015.07】(1/2)cvpaper.challenge@CVPR2015【2015.07】(1/2)cvpaper.challenge@CVPR2015
【2015.07】(1/2)cvpaper.challenge@CVPR2015
cvpaper. challenge
 
ECCV 2016 まとめ
ECCV 2016 まとめECCV 2016 まとめ
ECCV 2016 まとめ
cvpaper. challenge
 
cvpaper.challenge@CVPR2015(Dataset)
cvpaper.challenge@CVPR2015(Dataset)cvpaper.challenge@CVPR2015(Dataset)
cvpaper.challenge@CVPR2015(Dataset)
cvpaper. challenge
 
【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017
cvpaper. challenge
 
【2017.05】 cvpaper.challenge 2017
【2017.05】 cvpaper.challenge 2017【2017.05】 cvpaper.challenge 2017
【2017.05】 cvpaper.challenge 2017
cvpaper. challenge
 
【2015.07】(2/2)cvpaper.challenge@CVPR2015
【2015.07】(2/2)cvpaper.challenge@CVPR2015【2015.07】(2/2)cvpaper.challenge@CVPR2015
【2015.07】(2/2)cvpaper.challenge@CVPR2015
cvpaper. challenge
 
【2015.08】(4/5)cvpaper.challenge@CVPR2015
【2015.08】(4/5)cvpaper.challenge@CVPR2015【2015.08】(4/5)cvpaper.challenge@CVPR2015
【2015.08】(4/5)cvpaper.challenge@CVPR2015
cvpaper. challenge
 
cvpaper.challenge@CVPR2015(Action Recognition)
cvpaper.challenge@CVPR2015(Action Recognition)cvpaper.challenge@CVPR2015(Action Recognition)
cvpaper.challenge@CVPR2015(Action Recognition)
cvpaper. challenge
 
【2015.05】cvpaper.challenge@CVPR2015
【2015.05】cvpaper.challenge@CVPR2015【2015.05】cvpaper.challenge@CVPR2015
【2015.05】cvpaper.challenge@CVPR2015
cvpaper. challenge
 
【2015.08】(5/5)cvpaper.challenge@CVPR2015
【2015.08】(5/5)cvpaper.challenge@CVPR2015【2015.08】(5/5)cvpaper.challenge@CVPR2015
【2015.08】(5/5)cvpaper.challenge@CVPR2015
cvpaper. challenge
 

What's hot (20)

【2015.08】(2/5)cvpaper.challenge@CVPR2015
【2015.08】(2/5)cvpaper.challenge@CVPR2015【2015.08】(2/5)cvpaper.challenge@CVPR2015
【2015.08】(2/5)cvpaper.challenge@CVPR2015
 
【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016
 
【2016.07】cvpaper.challenge2016
【2016.07】cvpaper.challenge2016【2016.07】cvpaper.challenge2016
【2016.07】cvpaper.challenge2016
 
【2016.05】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016【2016.05】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016
 
【2016.06】cvpaper.challenge2016
【2016.06】cvpaper.challenge2016【2016.06】cvpaper.challenge2016
【2016.06】cvpaper.challenge2016
 
【2017.02】cvpaper.challenge2017
【2017.02】cvpaper.challenge2017【2017.02】cvpaper.challenge2017
【2017.02】cvpaper.challenge2017
 
【2017.03】cvpaper.challenge2017
【2017.03】cvpaper.challenge2017【2017.03】cvpaper.challenge2017
【2017.03】cvpaper.challenge2017
 
【2016.12】cvpaper.challenge2016
【2016.12】cvpaper.challenge2016【2016.12】cvpaper.challenge2016
【2016.12】cvpaper.challenge2016
 
cvpaper.challenge@CVPR2015(Attribute)
cvpaper.challenge@CVPR2015(Attribute)cvpaper.challenge@CVPR2015(Attribute)
cvpaper.challenge@CVPR2015(Attribute)
 
【2015.08】(3/5)cvpaper.challenge@CVPR2015
【2015.08】(3/5)cvpaper.challenge@CVPR2015【2015.08】(3/5)cvpaper.challenge@CVPR2015
【2015.08】(3/5)cvpaper.challenge@CVPR2015
 
【2015.07】(1/2)cvpaper.challenge@CVPR2015
【2015.07】(1/2)cvpaper.challenge@CVPR2015【2015.07】(1/2)cvpaper.challenge@CVPR2015
【2015.07】(1/2)cvpaper.challenge@CVPR2015
 
ECCV 2016 まとめ
ECCV 2016 まとめECCV 2016 まとめ
ECCV 2016 まとめ
 
cvpaper.challenge@CVPR2015(Dataset)
cvpaper.challenge@CVPR2015(Dataset)cvpaper.challenge@CVPR2015(Dataset)
cvpaper.challenge@CVPR2015(Dataset)
 
【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017
 
【2017.05】 cvpaper.challenge 2017
【2017.05】 cvpaper.challenge 2017【2017.05】 cvpaper.challenge 2017
【2017.05】 cvpaper.challenge 2017
 
【2015.07】(2/2)cvpaper.challenge@CVPR2015
【2015.07】(2/2)cvpaper.challenge@CVPR2015【2015.07】(2/2)cvpaper.challenge@CVPR2015
【2015.07】(2/2)cvpaper.challenge@CVPR2015
 
【2015.08】(4/5)cvpaper.challenge@CVPR2015
【2015.08】(4/5)cvpaper.challenge@CVPR2015【2015.08】(4/5)cvpaper.challenge@CVPR2015
【2015.08】(4/5)cvpaper.challenge@CVPR2015
 
cvpaper.challenge@CVPR2015(Action Recognition)
cvpaper.challenge@CVPR2015(Action Recognition)cvpaper.challenge@CVPR2015(Action Recognition)
cvpaper.challenge@CVPR2015(Action Recognition)
 
【2015.05】cvpaper.challenge@CVPR2015
【2015.05】cvpaper.challenge@CVPR2015【2015.05】cvpaper.challenge@CVPR2015
【2015.05】cvpaper.challenge@CVPR2015
 
【2015.08】(5/5)cvpaper.challenge@CVPR2015
【2015.08】(5/5)cvpaper.challenge@CVPR2015【2015.08】(5/5)cvpaper.challenge@CVPR2015
【2015.08】(5/5)cvpaper.challenge@CVPR2015
 

Viewers also liked

CVPR 2016 速報
CVPR 2016 速報CVPR 2016 速報
CVPR 2016 速報
Hirokatsu Kataoka
 
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
Hirokatsu Kataoka
 
Colorful image colorization
Colorful image colorizationColorful image colorization
Colorful image colorization
harmonylab
 
Mobilenet
MobilenetMobilenet
Mobilenet
harmonylab
 
Deep voice
Deep voiceDeep voice
Deep voice
harmonylab
 
AI勉強会用スライド
AI勉強会用スライドAI勉強会用スライド
AI勉強会用スライド
harmonylab
 
勉強会用スライド
勉強会用スライド勉強会用スライド
勉強会用スライド
harmonylab
 
勉強会用スライド
勉強会用スライド勉強会用スライド
勉強会用スライド
harmonylab
 
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Network
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial NetworkUnpaired Image-to-Image Translation using Cycle-Consistent Adversarial Network
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Network
harmonylab
 
DLゼミ20170522
DLゼミ20170522DLゼミ20170522
DLゼミ20170522
harmonylab
 
DeepLoco
DeepLocoDeepLoco
DeepLoco
harmonylab
 
Deep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural NetworksDeep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural Networks
harmonylab
 
Globally and Locally Consistent Image Completion
Globally and Locally Consistent Image CompletionGlobally and Locally Consistent Image Completion
Globally and Locally Consistent Image Completion
harmonylab
 
Ai勉強会20170127
Ai勉強会20170127Ai勉強会20170127
Ai勉強会20170127
harmonylab
 
Deeply-Recursive Convolutional Network for Image Super-Resolution
Deeply-Recursive Convolutional Network for Image Super-ResolutionDeeply-Recursive Convolutional Network for Image Super-Resolution
Deeply-Recursive Convolutional Network for Image Super-Resolution
harmonylab
 
7月10日(月)dl
7月10日(月)dl7月10日(月)dl
7月10日(月)dl
harmonylab
 
Generating Videos with Scene Dynamics
Generating Videos with Scene DynamicsGenerating Videos with Scene Dynamics
Generating Videos with Scene Dynamics
harmonylab
 
A simple neural network mnodule for relation reasoning
A simple neural network mnodule for relation reasoningA simple neural network mnodule for relation reasoning
A simple neural network mnodule for relation reasoningharmonylab
 
Densely Connected Convolutional Networks
Densely Connected Convolutional NetworksDensely Connected Convolutional Networks
Densely Connected Convolutional Networks
harmonylab
 
A3C解説
A3C解説A3C解説
A3C解説
harmonylab
 

Viewers also liked (20)

CVPR 2016 速報
CVPR 2016 速報CVPR 2016 速報
CVPR 2016 速報
 
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
 
Colorful image colorization
Colorful image colorizationColorful image colorization
Colorful image colorization
 
Mobilenet
MobilenetMobilenet
Mobilenet
 
Deep voice
Deep voiceDeep voice
Deep voice
 
AI勉強会用スライド
AI勉強会用スライドAI勉強会用スライド
AI勉強会用スライド
 
勉強会用スライド
勉強会用スライド勉強会用スライド
勉強会用スライド
 
勉強会用スライド
勉強会用スライド勉強会用スライド
勉強会用スライド
 
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Network
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial NetworkUnpaired Image-to-Image Translation using Cycle-Consistent Adversarial Network
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Network
 
DLゼミ20170522
DLゼミ20170522DLゼミ20170522
DLゼミ20170522
 
DeepLoco
DeepLocoDeepLoco
DeepLoco
 
Deep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural NetworksDeep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural Networks
 
Globally and Locally Consistent Image Completion
Globally and Locally Consistent Image CompletionGlobally and Locally Consistent Image Completion
Globally and Locally Consistent Image Completion
 
Ai勉強会20170127
Ai勉強会20170127Ai勉強会20170127
Ai勉強会20170127
 
Deeply-Recursive Convolutional Network for Image Super-Resolution
Deeply-Recursive Convolutional Network for Image Super-ResolutionDeeply-Recursive Convolutional Network for Image Super-Resolution
Deeply-Recursive Convolutional Network for Image Super-Resolution
 
7月10日(月)dl
7月10日(月)dl7月10日(月)dl
7月10日(月)dl
 
Generating Videos with Scene Dynamics
Generating Videos with Scene DynamicsGenerating Videos with Scene Dynamics
Generating Videos with Scene Dynamics
 
A simple neural network mnodule for relation reasoning
A simple neural network mnodule for relation reasoningA simple neural network mnodule for relation reasoning
A simple neural network mnodule for relation reasoning
 
Densely Connected Convolutional Networks
Densely Connected Convolutional NetworksDensely Connected Convolutional Networks
Densely Connected Convolutional Networks
 
A3C解説
A3C解説A3C解説
A3C解説
 

【2016.01】(1/3)cvpaper.challenge2016

  • 2. Keywords: Dataset, Scene Categorization, Benchmark, Recognition 新規性・差分 データセットの概要 結果 概要 コンピュータビジョンにおいてシーン認識のデータベースである Scene UNderstanding (SUN) databaseを提案.シーン認識の裾 野を広げた. それまでの物体認識のデータセットでは数百クラスの識別クラ スが用意されていたが,シーン認識では15種類程度しか含ま れていなかった.SUN databaseでは,それまでのデータセットを さらに拡大させ,397クラスのシーンを含む,大規模なデータ セットである. シーン認識に関する397クラス,130,519枚の画像が含まれる. 画像例は次ページ.比較した特徴量は,HOG, denseSIFT, self-similarity (ssim), LBP, GIST, textonなど. 次ページの図の通り.全ての特徴量を統合するのが最も精度が高いこと が判明した(38.0%).次いでHOG2x2 (27.2%), geometry texton hist (23.5%), ssim (22.5%), dense SIFT (21.5%)であった. Jianxiong Xiao, James Hays, Krista A. Ehinger, Aude Oliva, Antonio Torralba, “SUN Database: Large-scale Scene Recognition from Abbey to Zoo”, in CVPR2010. 【1】 Links 論文ページ: http://cs.brown.edu/~hays/papers/sun.pdf プロジェクトページ: http://vision.princeton.edu/projects/2010/SUN/ HOG https://hal.archives-ouvertes.fr/inria-00548512/document GIST http://cvcl.mit.edu/scene_understanding.html SSIM http://www.researchgate.net/profile/Eli_Shechtman/publication/221362526_Matching_Local_Self- Similarities_across_Images_and_Videos/links/02e7e520897af25746000000.pdf DenseSIFT http://www.vision.caltech.edu/Image_Datasets/Caltech101/cvpr06b_lana.pdf LBP http://www.outex.oulu.fi/publications/pami_02_opm.pdf Sparse SIFT http://www.robots.ox.ac.uk/~vgg/publications/papers/sivic04b.pdf Texton http://www.ics.uci.edu/~fowlkes/papers/mftm-iccv01.pdf
  • 4. Keywords:Saliency, object detection, objectness, PASCAL VOC 07 dataset Baysian framework 新規性・差分 手法 結果 概要 画像中の注目度領域の検出として,objectnessを提案している. 4つの指標を用い,ベイズの枠組みでobjectnessを実現してい る. objectonessの4つの指標を組み合わせて使用した 4つの指標 ・multi-scale saliency(MS) ・color contrast(CC) ・edge density(ED) ・syperpixels straddling(SS) 4つの指標を,ベイズの枠組みで統合している. Bogdan Alexe, Thomas Deselaers, Vittorio Ferrari, “What is an object ?”, in CVPR, 2010. 【2】 Links ・論文 ・プロジェクトページ(コードあり) PASCAL VOC 07datasetで実験した.実験結果はDR-STN curvesで評価 している. DR:detection rate STN:signal to noise
  • 5. Keywords: 3D Pose estimate, Human Eva II dataset, tracking by detection 新規性・差分 手法 結果 概要 単眼カメラでの3次元姿勢推定. 混雑状況においても実現できるよう,3段階の処理を加えてい る. Human Eva IIベンチマークで最先端の結果を示した. 従来の単眼カメラでの3D姿勢推定は,かなり制限のある環境 でのみ実現されてきた.それに対し,本手法は雑多な環境で も実現できるように手法を設計した. はじめに,1フレームから人物の視点と2D関節を推定する. 次に,フレーム間の関連性を,tracking by detectionに基づい て求める. 最後に,追跡情報から3Dの姿勢を復元する. Human Eva II datasetで実験した結果 Mykhaylo Andriluka, Stefan Roth, Bernt Schiele, “Monocular 3D Pose Estimation and Tracking by Detection”, in CVPR, 2010. 【3】 Links 論文:http://www.gris.informatik.tu-darmstadt.de/~sroth/pubs/cvpr10andriluka.pdf プロジェクトページ:https://www.d2.mpi-inf.mpg.de/node/428
  • 6. Keywords: Deep Learning, Convolutional Neural Networks (CNN), Visualization, AlexNet, Caltech 101, Caltech 256 新規性・差分 手法 結果 概要 Deep Learningは非常に有効な特徴量を抽出することで知られ ているが,その構造はブラックボックスであった.本稿ではCNN 特徴を可視化することにより少しでも特徴抽出に関する理解を 深める. Deep Learningによる識別を行うだけでなく,可視化を行う.ここ ではAlexNetを適用している.可視化により,特徴量の傾向を把 握し,さらに識別精度の高いモデルを構築できる. 次ページに可視化のフロー図を示す. 下図は可視化の例である.識別に有効な特徴量を選択して可視化してい る.層が進むほど高次な特徴になっている. Matthew D. Zieler, Rob Fergus, “Visualizing and Understanding Convolutional Networks”, in ECCV, 2014. 【4】 Links 論文ページ http://www.matthewzeiler.com/pubs/arxive2013/eccv2014.pdf 著者ページ http://www.matthewzeiler.com/ 著者による講演動画 https://www.youtube.com/watch?v=ghEmQSxT6tw
  • 8. Keywords: Person re-identification,iLIDS,VIPeR,ETZH,SDALF,Color Feature 新規性・差分 手法 結果 概要 人物の対称性を用いたPerson Re-IDの提案.Stmmetry- Driven Accumulation of Local Features(SDALF)と呼ばれてい る. iLIDS, VIPeR, ETZH datasetで実験し,有効性を確認した. 従来のPerson Re-IDは,色特徴やテクスチャ特徴などの設計 方法に焦点が当てられていた.しかし,本論文では,「人物は左 右で対称性がある」という構造情報を加える事で,Re-IDの精度 を向上させている. はじめに,人物領域から顔・胴体・下半身を分離し,胴体と 下半身は対称性があるとして領域分割する.次に,各領域 から特徴(Weight Color Histgoram,Maximally Stable Color Regions,Reccurent High-Structures Pathes)を抽出する. 最後に,特徴を重み付けした距離計さんによってマッチング する iLIDS, VIPeR, ETZH datasetで実験した結果が以下のとおり M. Farenzena, L. Bazzani, A. Perina, V. Murino, M. Cristani, “Person Re-Identification by Symmetry-Driven Accumulation of Local Features ”, in CVPR, 2010. 【5】 Links ・PDF:http://www.lorisbazzani.info/papers/proceedings/FarenzenaetalCVPR10.pdf ・Project:http://www.lorisbazzani.info/sdalf.html ・Code:https://github.com/lorisbaz/SDALF 実験結果はCMC曲線で評価されている.CMC曲線は,横軸にRank, 縦軸に累積確率をとっており,面積が大きいほど性能が高い.
  • 9. Keywords:Automatic Attribute Discovery, Automatic Characterization and MiLBoost 新規性・差分 手法 結果 概要 Web上の画像から自動的に物体判別のための属性を抽出 するシステムを提案した. ・物体を識別するための特徴を自動的に発 見・順位付けができる. ・人の手でラベル付けする必要なく,物体の appearance modelを学習できる. ・特定のための属性として,外見的特徴だ けでなく,その特徴が局所的な特徴か全体 的な特徴かの尺度(Localizability)を持つ. 外見的特徴としては色・形状・テクスチャを 用いている. 1.Webから大量の画像とその説明文を集める. 2.集めた説明文から画像の特徴の属性の検出や順位付けをす る 3.順位の高い属性を外見的特徴として,MIL Boostを用いて属性 ごとのLocalizabilityを設定する. Web上のイヤリングとバック,ネクタイ,靴の画像 に対して提案システムを用いて属性付けした. 人が属性付けしたデータと比べて, イヤリングとバックで80%,ネクタイで90%,靴で70% の精度で正しく属性付けできた. TL Berg, AC Berg, J Shih, “Automatic Attribute Discovery and Characterization from Noisy Web Data”, in ECCV, 2010. 【6】 Links 論文
  • 10. Keywords:Person Re-ID, Metric Learning, PRDC, 新規性・差分 手法 結果 概要 Person R-IDにおけるMetric Learningの提案.Probabilistic Relative Distance Comparison(PRDC).実験の結果,ブースティ ングなどの手法よりも高性能となった. 從來手法ではクラス内分散を最小化することに焦点が当てられ ていたが,それよりも,ペアワイズに学習することで正しいクラス の尤度を最大化している.これにより,外観変化に頑健になり, モデルの過学習を防ぐことが出来る. クラス内分散を最小化するのではなく,ペアワイズに学習 することで正しいクラスの尤度を最大化している. Wei-Shi Zheng, Shaogang Gong and Tao Xiang, “Person Re-identification by Probabilistic Relative Distance Comparison”, in CVPR, 2011. 【7】 Links 論文:http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5995598
  • 11. Keywords: Person Re-ID, HSV, YCrCb, RGB, Gabor, Schmid, attribute 新規性・差分 結果 概要 Person Re-IDにおける複数の外観特徴の有効性を調査してい る.RGB・HSV・YCrCb・Gabol Filter・Schmid Filterに対して実 験している. 從來,多くの外観特徴が提案されてきたが,どの特徴が有効 か調査されていなかった.そのため本論文では,複数の特徴 を適用して有効性を調査している. Chunxiao Liu, Shaogang Gong, Chen Change Loy and Xinggang Lin, “Person Re-identification: What Features Are Important?”, in ICCV, 2012. 【8】 Links 論文: http://citeseerx.ist.psu.edu/viewdoc/download? doi=10.1.1.415.589&rep=rep1&type=pdf 全体的に,HSVとYCbCrが良い性能だった. さらに,下記のAttribute情報を追加した上でも調査しており, Attributeを加える事で,高性能となることも示している.
  • 12. Keywords:Face Recognition, HOG, LBP Local Descriptor, Lerning-based, uunsupervised learning 新規性・差分 手法 結果 概要 学習ベースで顔認識用のencoderを生成する手法.実験の結 果,HOGなどよりも7[%]程度精度が向上しており,90[%]の精度 を誇っている. 従来手法のHOGやLBPのような人間が設計した特徴量ではな く,unsupervised学習で特徴量を設計している. Z Cao, Q Yin, X Tang, J Sun, “Face Recognition with Learning-based Descriptor”, in CVPR,2010. 【9】 Links 論文: http://research.microsoft.com/en-us/um/people/jiansun/papers/ CVPR10_FaceReco.pdf
  • 13. Keywords: Pedestrian Detection, Benchmark, Caltech Pedestrian Detection Benchmark 新規性・差分 結果 概要 歩行者検出用のベンチマークとして知られるCaltech Pedestrian Detection Benchmarkの提案. 手法 データセットの撮影方法に関する項目や,歩行者のオクルージョン度合いな ど歩行者の統計情報を評価した.学習画像はpositive 67k, negative 61k, テ スト画像はpositive 65k, negative 56kのデータが収集されており,歩行者検出 データセットの中でも最大である.さらには,映像やオクルージョンラベルも含 まれている.比較にはHaar-like特徴をはじめShapelet, HOG, ChnFtrs, PoseInv, PLS, HOGLBPなどの特徴量が比較されている. データセットの説明はもちろん,映像に含まれる歩行者の特性 や手法の違いについても言及.データの収集,アノテーション, 歩行者検出手法の比較まで詳細に行っていることが新規性. 精度の面では[Walk+, CVPR2010]が最も高い精度を実現した.(表) Piotr Dollar, Christian Wojek, Bernt Schiele, Pietro Perona, “Pedestrian Detection: An Evaluation of the State of the Art”, in PAMI2012. 【10】 Links 論文 http://vision.ucsd.edu/~pdollar/files/papers/DollarPAMI12peds.pdf プロジェクト http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/
  • 14. Keywords:Bag of words, Fisher Vector, Image searching, image retrival 新規性・差分 手法 結果 概要 Fisher Vectorの提案論文.画像検索に用いることを想定してお り,従来のBoWと比較して,精度・検索速度・メモリーの点で優位 性があることを示している. 従来のBoWのようなフレームワークではなく,確率的な生成モデ ルを構築して画像検索の精度を上げている. 入力特徴量をGMMでクラスタリングし,平均ベクトル・分散・ 重みといった統計的特徴量を算出し,特徴ベクトルとして扱 う. 3つのbinarization(α=0 binarization, Local Senstive Hashing, Spectral Hashing)で精度を比較している,その結果,α=0 binarizationが最も 高精度となった.以下の画像は画像検索の出力例. Florent Perronnin, Yan Liu, Jorge Sa ́nchez and Herve ́ Poirier , “Large-scale Image Retrival with Compresed Fisher Vector”, in CVPR, 2010. 【11】 Links 論文: http://citeseerx.ist.psu.edu/viewdoc/download? doi=10.1.1.401.9140&rep=rep1&type=pdf 著者:https://scholar.google.co.jp/citations?user=r8Zh-jwAAAAJ&hl=ja 参考:http://www.slideshare.net/takao-y/fisher-vector Code: http://jacobcv.blogspot.jp/2014/12/fisher-vector-in-python.html
  • 15. Keywords: Integral Channel Features, Pedestrian Detection 新規性・差分 手法 結果 概要 複数のチャネルの蓄積により特徴量を構成する”Integral Channel Features”の提案. 複数チャネルから単純な特徴量を取得するのみで特徴量を構 成しているので,高速かつ高精度な歩行者検出精度を達成し た. 複数の変換画像(gray, 1次, LUV, edges, Gabor, Gradient histogram, DOG, Thresholding)から積分した特徴量を蓄積す る.基本的なアイディアはViola&JonesのHaark-like特徴の単純 な拡張である.識別器にはカスケード識別器の拡張版である soft cascadeを用いる. 下はINRIA, Caltech Pedestrian datasetにて比較・評価した結果である. Piotr Dollar, Zhuowen Tu, Pietro Perona, Serge Belongie, “Integral Channel Features”, in BMVC, 2009. 【12】 Links 論文 http://authors.library.caltech.edu/60048/1/dollarBMVC09ChnFtrs.pdf Piotr Dollar https://scholar.google.com/citations?user=a8Y2OJMAAAAJ&hl=ja YouTube https://www.youtube.com/watch?v=SrX1TBjxNq0 OpenCV実装 http://docs.opencv.org/3.0-beta/modules/xobjdetect/doc/ integral_channel_features.html
  • 16. Keywords:Background Subtraction, evaluation, video surveillance 新規性・差分 結果 概要 監視カメラにおける背景差分手法の比較を行っている.9つの 手法は,McFarlance・Stauffer・Oliver・McKenna・Li・Kim・ Zivkovic・Maddalena・Barnichである. 背景差分の欠点などを洗い出すために,9つの手法の比較評 価を行っている.各手法の特徴は下記の通り. Sebastian Brutzer, Benjamin Hoferlin, Gunther Heidemann, “Evaluation of Background Subtraction Techniques for Video Surveillance”, in CVPR, 2011. 【13】 Links 論文:http://www.vis.uni-stuttgart.de/uploads/tx_vispublications/Brutzer2011-2.pdf 著者:http://ikw.uni-osnabrueck.de/en/heidemann
  • 17. Keywords:Action Recognition, Dense Trajecotories, HOG, HOF, MBH 新規性・差分 手法 結果 概要 行動認識のための特徴抽出手法の提案.密な軌跡上から複 数の局所特徴量を求めることによって,詳細な特徴抽出を可 能にしている. 従来の動作特徴と異なり,時間的にも空間的にもより密に特 徴を抽出している. 1.画像ピラミッドの生成&5[pixel]間隔で特徴点抽出.この と特徴点は誤対応を防ぐため閾値判定している. 2.Farneback アルゴリズムによって15[frame]特徴点追跡 3.軌跡上からHOG,HOF,MBH特徴量を算出 H Wang, A Kläser, C Schmid, CL Liu, “Action Recognition by Dense Trajectories”, in CVPR, 2011. 【14】 Links 論文:https://hal.inria.fr/inria-00583818/document Project:http://lear.inrialpes.fr/people/wang/dense_trajectories
  • 18. Keywords: Object Retrieval, RootSIFT, 新規性・差分 手法 結果 概要 物体検索のための特徴設計(RootSIFT)・クエリ拡張・特徴の補 完を提案している.実験の結果,3つの提案手法をすべて組み 合わせると最高精度となった. 物体検索における複数の概念を組み合わせて精度を向上さ せている. (i)特徴設計 SIFTのベクトルをL1正規化した後,各次元のルートを 取ったベクトルを用いている. (ii)クエリ拡張 ROIを平均的に修正していく Ox5k,Ox10k, Paris6kに 対して実験を行った. 結果は右の通り. Relja Arandjelovi´c, Andrew Zisserman, “Three things everyone should know to improve object retrieval ”, in CVPR, 2012. 【15】 Links 論文:https://www.robots.ox.ac.uk/~vgg/publications/2012/Arandjelovic12/arandjelovic12.pdf プレゼン:http://www.robots.ox.ac.uk/~vgg/publications/2012/Arandjelovic12/presentation.pdf ポスター:http://www.robots.ox.ac.uk/~vgg/publications/2012/Arandjelovic12/poster.pdf 著者:http://www.relja.info/publications.html (iii)特徴の補完 データセット内の結びつきを考慮してグラフを構築する.
  • 19. Keywords:asymmetric transforms, object recognition, kernel learning, domain adaptation 手法 結果 概要 物体認識のための特徴空間設計.ペアワイズに,非対称で特 徴を変換している. Brian Kulis, Kate Saenko, and Trevor Darrell, “What You Saw is Not What You Get: Domain Adaptation Using Asymmetric Kernel Transforms”, in CVPR,2011. 【16】 Links PDF:ftp://192.33.221.237/pub/courses/EE-700/material/05-12-2012/cvpr_adapt.pdf Citation:https://scholar.google.co.jp/citations?user=okcbLqoAAAAJ&hl=ja 日本語資料: http://www.isi.imi.i.u-tokyo.ac.jp/~harada/pdf/ trend_in_scene_object_recognition_cvpr2011.pdf
  • 20. Keywords:Random Projection, Texture classification, 新規性・差分 手法 結果 概要 特徴次元手法であるRandom Projection(RP)によるテクスチャ分 類.RPにおけるパッチサイズや次元数などを詳細に検討してい る.実験では従来のPCAや複数の特徴と比較している. テクスチャ分類の汎用性を向上するため,RPをテクスチャ分類 用にfine-tuningしている.万能辞書の作成. Li Liu, Paul Fieguth, “Texture Classification using Compressed Sensing ”, in PAMI, 2012. 【17】 Links 3つのデータセット(Brodatz, CUReT, MSRC)に対して検証実験してい る. 論文:http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=6136524 著者:http://www.sbs.ox.ac.uk/community/people/li-liu
  • 21. Keywords:Acion recognition, Data mining, machine learning, temporal feature 新規性・差分 手法 結果 概要 行動認識にデータマイニングの概念を取り入れている.STIPで特 徴を抽出し,Association ruleでマイニングしている.KTHデータ セットで実験し,95.7%の精度で実現している. 新しい特徴などを設計することなく,データマイニングによって精 度向上している. A Gilbert, J Illingworth, R Bowden, “Action Recognition Using Mined Hierarchical Compound Features”, in PAMI, 2011. 【18】 Links 論文:http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=5551150&tag=1 著者:https://scholar.google.com/citations?user=NNhnVwoAAAAJ&hl=ja 日本語解説:http://hirokatsu16.blog.fc2.com/blog-entry-97.html KTHデータセットにおいて複数 の手法に対して実験している. 実験結果を右図に示す.
  • 22. Keywords: R-CNN, Convolutional Neural Networks (CNN) 新規性・差分 手法 結果 概要 R-CNNの処理を高速化.従来のR-CNNに対して9倍,Heらの SPPnetに対して3倍の高速化を実現した. 1.  R-CNNやSPPnetよりも精度向上 2.  Multi-task lossを用いたシングルステージの学習 3.  全てのレイヤを学習により更新 4.  特徴をキャッシュするストレージは不要 基本的には物体候補領域を抽出してconv.やmax-poolingにおける特徴マップ を学習. 【学習】特徴マップにおけるRoIプーリングにより任意の領域サイズを入力として 固定の特徴ベクトルを出力する(学習や検出時に比較できるため).pre-trained モデルからの初期化について,全結合層とsoftmax層がRoI pooling層に置き換 えられる.なお,RoI pooling層は誤差逆伝播法も処理可能である.Multi-task lossではK+1(物体Kクラス+背景1クラス)層の分類において特徴ベクトルを入力 としたときのsoftmax層の分類誤差L_cls(p, u)と位置ずれに対する誤差L_loc(t, v)から分類やローカライズを補正するためのマルチタスク学習を行う. 【検出】SVD(特異値分解)による低ランク近似を利用して,全結合層のパラメー タを削減して高速化を図る. VOC 2007, 2010, 2012に対して良好な結果が出ただけでなく,高速な学 習やfine-tuningによりさらに精度が向上した.下図が成果である. Ross Girshick, “Fast R-CNN”, in ICCV, 2015. 【19】 Links 論文 http://arxiv.org/pdf/1504.08083v2.pdf 著者 http://www.cs.berkeley.edu/~rbg/ GitHub https://github.com/rbgirshick/fast-rcnn
  • 23. Keywords: ImageNet, Large-Scale database, ILSVRC, Object Categorization 新規性・差分 手法 概要 ILVRCで用いられるImageNetの提案.ImageNetはWordNetと呼 ばれる構造化された単語の概念に沿って画像が収集・構成さ れる.1000万ものアノテーションされた画像データを含む.その 網羅性と大規模な画像データから,のちにDeep Learningの火 付け役にもなった. 分野最大規模のデータベースをpublicに公開し,さらに追加で きる仕組みを考案した.”As computer vision research advances, larger and more challenging datasets are needed for the next generation of algorithms.”として数年後にDeep Learningによる躍進を支えるデータとなった. ImageNetはWordNetに従い画像を収集し,クラスが構造化されている. WordNetではsynsetと呼ばれるフレーズに従い構成されていて各synsetに 500~1000枚のアノテーションされた画像が含まれるように収集した.ImageNet は12のsubtree-- mammal, bird, fish, reptile, amphibian, vehicle, furniture, musical instrument, geological formation, tool, flower, fruit に5,247synsetと(当 時)320万枚の画像が含まれる.さらに,各項目内のデータ分散や画像の網羅 性,収集法についても言及している. 将来展望として,2009年当時のImageNetはWordNetの10%しか含んでいないと している.これに対してAmazon Mechanical Turk (AMT)によるタグ付けにより, 5千万のアノテーションされたクリーンかつ多様性や解像度を考慮したデータを 公開したいとしている.さらには物体検出のための位置情報やセグメンテー ション,cross-synset問題にも取り組むべくラベル付けをしたいと主張. Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, Li Fei-Fei, “ImageNet: A Large-Scale Hierarchical Image Database”, in CVPR, 2009. 【20】 Links 論文 http://www.image-net.org/papers/imagenet_cvpr09.pdf プロジェクト http://image-net.org/index
  • 24. Keywords: Haar-like, Face Detection, Cascade, AdaBoost 新規性・差分 手法 結果 概要 Viola-Jones論文.顔検出手法の研究を進める要因となった論 文. コントリビューションは3つあると主張. 1.  Integral imageの提案.のちのHaar-like特徴となる 2.  AdaBoostベースの学習方法 3.  カスケード型識別器を提案 まずHaar-like特徴量の提案があげられる.画像内の矩形領域内の明度の累 積を高速に処理するためのIntegral Imageを提案した.隣り合う領域の明暗差 の組み合わせが顔検出に非常に有効なことを実証した.有効なHaar-like特 徴を学習するためにAdaBoostが採用された.AdaBoostではあるクラスを分類 するために有効な特徴量を選択し,さらに次の特徴量が最初の特徴量が苦 手とするものを選択する.上位の特徴量のみで有効なベクトルを抽出できる ため,識別性能のみならず計算コストの面でも良い性能を保証できる.さらに は,カスケード型識別器として,識別器を複数連ねることにより,早期に異な る特徴を棄却することができる.左はHaar-like特徴,右はカスケード型識別 器. 右はMIT+CMUの顔データセットに対して学 習・識別を行った結果である.さらに,提案 手法は384x288pxlの画像に対して15fpsで顔 検出を実現した.使用PCはIntel Pentium III だったので,当時としては画期的な性能を誇 る顔検出器であった. Paul Viola, Michael Jones, “Rapid Object Detection using a Boosted Cascade of Simple Features”, in CVPR, 2001. 【21】 Links 論文 https://www.cs.cmu.edu/~efros/courses/ LBMV07/Papers/viola-cvpr-01.pdf wikipedia https://en.wikipedia.org/wiki/Haar- like_features 参考 http://www.vision.cs.chubu.ac.jp/cvtutorial/ pdf/03objectdetection.pdf
  • 25. Keywords: Unsupervised feature learning, Action Recognition, ISA 新規性・差分 手法 結果 概要 行動認識のための特徴量をIndependent Subspace Analysis (ISA)により自動学習し,行動の認識性能を高める.特に,CNN ベースの自動特徴学習も行っている. HOGやSIFTのようなhand-craftedな特徴量ではなく,教師なし 学習により行動認識に有効な特徴量を設定する. ISAは有効な多変量解析手法であることが知られるが,ICAに比べて計算コス トが高いことが知られる.提案手法では,時系列データのように膨大なデータ を入力としても学習できるような仕組みを考案するため,Convolutional Neural Networks (CNN)の畳み込みとプーリングの仕組みを参考にした.フィルタに はparametric Gabor filterを用い,重みWの学習にISAを用いている.また,構 造をよりdeepにするためには左図のようにISAによるパラメータ学習とPCAの 白色化を行う. Hollywood2やYouTubeデータセットに対してもそれぞれ53.3%,75.8%と非 常に高い性能が出たことを示した.詳細な手法の比較は下記の表に示 す. Quoc V. Le, Will Y. Zou, Serena Y. Yeung, Andrew Y. Ng, “Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis”, in CVPR, 2011. 【22】 Links 論文 http://cs.stanford.edu/~quocle/LeZouYeungNg11.pdf 著者ページ http://cs.stanford.edu/~quocle/publications.html
  • 26. Keywords: Action Recognition, Attribute, 新規性・差分 手法 結果 概要 行動認識の分野にもアトリビュートを導入した論文.認識した行 動タグの付加だけでなく,その属性も判断可能. 1.   トレーニングサンプルが集まらないような状況でもアト リビュートの認識により効果的に分類可能 2.  Latent SVMにより潜在的なクラス内分散をケア 3.  手動で決定したアトリビュートとdata-drivenなアトリ ビュートを組み合わせることが可能 属性はクラス内分散の変化を捉えた識別性に優れるように選 択し,行動を説明するために適切なものを選ぶ. 識別器にはLatent SVMを適用し,アトリビュートを潜在変数に て表現し,クラス内の分散を考慮し適切なクラスにすることに成 功した. 下の表はアトリビュートベースの行動 認識の結果である.学習サンプルが 少ない,かつより高度な記述が必要な 行動クラスに対してattributeベースの 行動認識は有効である. Jingen Liu, Benjamin Kuipers, Silvio Savarese, “Recognizing Human Actions by Attributes”, in CVPR, 2011. 【23】 Links 論文 http://cvgl.stanford.edu/papers/cvpr11_liu_a.pdf データセット http://www.ecse.rpi.edu/homepages/cvrl/database/AttributeDataset.htm
  • 27. Keywords: Deformable Part Models (DPM), Object Detection, HOG 新規性・差分 手法 結果 概要 CVPR2008に提案されたDPMの改良版.Pictorial Structureに より構成された部位ベースモデルをカスケード型識別器で構成 することで,位置の制約条件から精度や計算コストを向上させ る. Star-structured modelやdynamic programming, distance transformにより,PASCAL datasetに対して高い精度を誇った だけでなく,20倍の速度で検出することができた. 右図は2つの異なるカスケード型識別器を走らせた結果である.Pictorial Structureによる車と人物の尤度マップが異なることが確認できる.Star model を適用しており,各パーツの位置を理想のパーツ位置と比較する.全てのパー ツをそれぞれ計算して最終的なスコア値を得る.スコアをを閾値処理により棄 却するのであるが,その際の閾値をApproximately Admissible (PAA)により決 定する.左図は検出画像と自転車モデルの全体とカスケード型識別器の各識 別モデルである. 右の表がprecision-recallであり, 概ねベースラインであるDPMから 精度を損なうことなくスピードを向 上させることに成功した.例えば bicycleでは22倍のスピードアップを 達成し,各フレーム313msで処理で きる. Pedro F. Felzenszwalb, Ross B. Girshick, David McAllester, “Cascade Object Detection with Deformable Part Models”, in CVPR, 2010. 【24】 Links 論文 http://www.cs.berkeley.edu/~rbg/papers/Cascade-Object- Detection-with-Deformable-Part-Models--Felzenszwalb- Girshick-McAllester.pdf プロジェクト http://www.cs.berkeley.edu/~rbg/star-cascade/
  • 28. Keywords: Action Recognition, Space-time Neighborhood Features 新規性・差分 手法 結果 概要 従来のbag-of-wordsモデルでは,識別的な特徴を見落としてし まう可能性があったため,提案手法では隣接する時系列特徴 の形状を学習することで行動カテゴリに最も適した特徴を見つ けることができる. 提案手法は行動認識の問題に則した形式で特徴量を学習する ことができる. Laptevらの提案したHOG/HOF特徴(level-0 feature)を取得し,それらの時系 列近傍をPCA次元圧縮した結果をlevel-1 featureとして記述. さらに近傍特徴を各スケール・時系列的に階層的に構築し,Multiple Kernel Learing (MKL)による識別器を生成.χ二乗距離によるカーネルにてSVM識 別器を生成する.level-2 featureは,level-1を各ワードとして見たより上位の 高次特徴を示す. Level-0は[Laptev+, CVPR2008]の 結果(85.49%)であり,カーネル学習 (84.43%),Level-0, 1, 2の統合によ る提案手法が最も高い精度 (87.27%)でUCF Sports datasetの 行動識別を実現した. Adriana Kovashka, Kristen Grauman, “Learning a Hierarchy of Discriminative Space-Time Neighborhood Features for Human Action Recognition”, in CVPR, 2010. 【25】 Links 論文 http://www.cs.utexas.edu/~grauman/papers/ kovashka_cvpr2010.pdf プロジェクト http://vision.cs.utexas.edu/projects/ activity_neighborhood_features/
  • 29. Keywords: Actionlet, Action Recognition, Kinect 新規性・差分 手法 結果 概要 Kinectを用いた姿勢ベース行動認識手法の提案.Actionlet(動 作の最小単位)から特徴選択により高精度な行動認識を実現し た. 姿勢ベースの関節位置推定のようなノイズを含む場面におい ても有効な特徴量を提案しただけでなく,有効な特徴をサブ セットとして表現する方法についても考案した. Local Occupancy Pattern (LOP)により距離画像のアピアランスを評価すること ができ,人物がインタラクションする物体の情報を取得可能である.また,姿勢 情報に関してもFourier Temporal Pyramidを適用することでノイズに対しても頑 健な記述ができるようになり,Kinectのように関節の検出にゆらぎが発生しても 時系列特徴量を記述可能である.さらには,Actionlet Ensemble Modelを提案す ることにより,人物の姿勢から行動識別に有効なサブセットを構成する.Mining では信頼度(Confidence)と曖昧度(Ambiguity)を定義し,曖昧度が低く信頼度が 高い関節位置を適用することで姿勢ベースの行動認識が高精度になる. CMU MoCap datasetやMSRAction 3D dataset, MSR DailyActivity3D datasetにて提案手法の有 効性を検証した.MSRAction 3Dにて88.2%(従来 法74.7%),Daily Activity 3Dにて85.75%(従来法 78%),CMU Mocapにて98.13%(従来法98.27%)の 識別率と非常に高い数字を出した. Jiang Wang, Zicheng Liu, Ying Wu, Junsong Yuan, “Mining Actionlet Ensemble for Action Recognition ”, in CVPR, 2012. 【26】 Links 論文 http://www.msr-waypoint.net/en-us/um/ people/zliu/papers/joint_modeling_final.pdf 著者 http://users.eecs.northwestern.edu/~jwa368/
  • 30. Keywords: Action Bank, High-level representation, Action Recognition 新規性・差分 手法 結果 概要 Object Bankを参考にして,時系列の行動認識においても ビュー毎の特徴抽出をボリュームデータにしてMax-poolingを行 う,High-levelな特徴表現方法を実現. Object Bankの記述に対して,時系列情報を用いることで行動 認識用の識別器へと拡張させた.ビューの変化や時系列のテ ンポの変化へ対応することができた.また,これにより行動認 識にhigh-levelな特徴記述方法を持ち込んだとしている. Object Bankを参考にしているが,さらにビューポイントや時系列のテンポの差 を見分けられるように改良した.Naのフィルタ,Nsの時系列スケール,73種類 の3次元spatial pyramidにてmax-poolingを適用するのでNa X Ns X 73 次元の 特徴ベクトルが抽出できる.識別器には標準的なSVMを用いており,損失項に はL2正則化のHinge-lossを用いる.行動のテンプレートは205種類からなり, UCF50/KTHからFilter Bankを構成した. Action Bankは各データセット にて最先端の精度を達成し た.KTH(98.2%), UCF sports(95.0%), UCF50 (57.9%), HMDB51 (26.9%)であ る. Sreemanananth Sadanand, Jason Corso, “Action Bank: A High-Level Representation of Activity in Video”, in CVPR, 2012. 【27】 Links 論文 http://www.cse.buffalo.edu/~jcorso/pubs/ jcorso_CVPR2012_actionbank.pdf プロジェクト http://www.cse.buffalo.edu/~jcorso/r/ actionbank/ 著者 http://web.eecs.umich.edu/~jjcorso/
  • 31. Keywords: Objectness, selective search 新規性・差分 手法 結果 概要 Superpixelベースの手法にてセグメンテーションした結果を適応 的に統合し,物体検出のための候補領域とする.なお,その後 オリジナルのR-CNNの物体候補領域抽出方法として適用され た. Exhaustive Search (画像の全探索)よりも処理時間を低減し,な おかつすべてのスケールや物体形状にも対応可能である. superpixel領域を適応的に統合することで高速かつ柔軟な形状 変化に対応可能である. “Efficient Graph-based Image Segmentation”によりsuperpixel領域単位に分 類する.さらにはこの領域に対して類似度計算,隣接領域の統合を繰り返す ことで各スケールや形状に関係なく物体の候補領域を抽出できる.特徴量に は色やテクスチャ,サイズ,位置関係を用いる.初期パラメータとして閾値を 複数用いて異なる領域を抽出する処理も行う.下の表は3つの戦略であり,一 番上は単一の特徴量にて試した結果.次にSelective Search Fastでは速度重 視の方法をとっており,組み合わせの数が少ない手法である.精度をとるの であればSelective Search Qualityが一番精度が高かった.Fast/Qualityでは それぞれ8/80の組み合わせを実行することになる. 平均して正解の物体矩形とのオーバーラップ領域が87.9% (10,097の領域 に対し),Recall rateは99%を記録するなど良好な性能を実現した. Jasper R. R. Uijlings, Koen E. A. van de Sande, Theo Gevers, Arnold W. M. Smeulders, “Selective Search for Object Detection”, in IJCV, 2013. 【28】 Links 論文 https://ivi.fnwi.uva.nl/isis/publications/2013/UijlingsIJCV2013/ UijlingsIJCV2013.pdf プロジェクト https://ivi.fnwi.uva.nl/isis/publications/bibtexbrowser.php? key=UijlingsIJCV2013&bib=all.bib
  • 33. Keywords: R-CNN, CNN, Selective Search 新規性・差分 手法 結果 概要 Regions with CNN (R-CNN)のオリジナル論文.候補領域抽出 と畳み込みニューラルネットワーク(CNN)の特徴量+SVMにより 分類することで物体検出を行う. CNNの研究では主に物体識別問題が行われてきた.しかし, 位置まで含めて特徴量を取得することも重要な課題である.R- CNNでは物体候補領域を抽出し,領域内で識別を実行するこ とにより位置まで含めた物体検出を実現することができる. 次ページにR-CNNのフローを示す.(1)画像入力 (2) 2000前後の物体候補領 域を抽出する.本論文ではselective search (fast mode)を用いているが, EdgeBoxes, GOP and LPO, MCG, RIGOR, などに代替可能である.(3) CNN アーキテクチャの中間層から特徴量を取り出す.ここではCaffe/Decafの実装 であるAlexNetを用い,同Decaf論文[Donahue+, ICML2014]にてもっとも精度 の良かった第6, 7層の特徴量(4096次元)を使用.warped regionとあるが,これ は一定のサイズ(227x227pixels)にリサイズすることである. (4) SVMにより候 補領域内の画像を評価する.信頼度が高い領域のみを認識結果として出力 する. また,エラー率を下げるためにDPMでも採用されたbounding-box regression(bbg)を採用した.bbgでは候補領域Pから正解領域Gへの線形関数 である変換マップdを生成することが目的である. PASCAL VOC 2007で58.8%, 同2010で53.7%,同 2012にて53.3%の精度を 達成した.DPMでは33.4%(PASCAL VOC 2010)の認識結果であるため, かなりの精度向上を実現した.処理時間はGPUにて13s/image, CPUにて 53s/imageであった. Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik, “Rich feature hierarchies for accurate object detection and semantic segmentation”, in CVPR, 2014. 【29】 Links 論文 http://www.cs.berkeley.edu/~rbg/papers/r-cnn-cvpr.pdf プロジェクト https://github.com/rbgirshick/rcnn 【物体候補領域】 EdgeBoxes: matlab code GOP and LPO: python code MCG: matlab code RIGOR: matlab code
  • 34.
  • 35. Keywords: R-CNN, Convolutional Neural Networks (CNN) 新規性・差分 手法 結果 概要 R-CNNの処理を高速化.従来のR-CNNに対して9倍,Heらの SPPnetに対して3倍の高速化を実現した. 1.  R-CNNやSPPnetよりも精度向上 2.  Multi-task lossを用いたシングルステージの学習 3.  全てのレイヤを学習により更新 4.  特徴をキャッシュするストレージは不要 基本的には物体候補領域を抽出してconv.やmax-poolingにおける特徴マップ を学習. 【学習】特徴マップにおけるRoIプーリングにより任意の領域サイズを入力として 固定の特徴ベクトルを出力する(学習や検出時に比較できるため).pre-trained モデルからの初期化について,全結合層とsoftmax層がRoI pooling層に置き換 えられる.なお,RoI pooling層は誤差逆伝播法も処理可能である.Multi-task lossではK+1(物体Kクラス+背景1クラス)層の分類において特徴ベクトルを入力 としたときのsoftmax層の分類誤差L_cls(p, u)と位置ずれに対する誤差L_loc(t, v)から分類やローカライズを補正するためのマルチタスク学習を行う. 【検出】SVD(特異値分解)による低ランク近似を利用して,全結合層のパラメー タを削減して高速化を図る. VOC 2007, 2010, 2012に対して良好な結果が出ただけでなく,高速な学習や fine-tuningによりさらに精度が向上した.下図が成果である. Ross Girshick, “Fast R-CNN”, in ICCV, 2015. 【30】 Links 論文 http://arxiv.org/pdf/1504.08083v2.pdf 著者 http://www.cs.berkeley.edu/~rbg/ GitHub https://github.com/rbgirshick/fast-rcnn
  • 36. Keywords: Faster R-CNN, Region Proposal Networks (RPN) 新規性・差分 手法 結果 概要 物体候補領域をニューラルネットワークにて計算するRegion Proposal Networks (RPN)を提案することで,End-to-Endで候 補領域抽出~物体検出が可能になった. 物体候補領域を別処理により設定する必要があったが,Faster R-CNNでは物体候補領域もCNNアーキテクチャ内で抽出可 能.実験では約5FPSでの物体検出やPASCAL VOCで最高精 度を記録した. 入力の画像サイズを適応的にした.画像を入力すると中間層 (intermediate layer)を通り抜け物体候補領域(reg layer)と領域 ないのスコア値(cls layer)を計算する. PASCAL VOC 2007にて73.2%, 2012にて70.4%を達成した.候補領域の数 も最大300としている. Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun, “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks”, in NIPS, 2015. 【31】 Links 論文 http://arxiv.org/pdf/1506.01497v2.pdf GitHub (Python) https://github.com/rbgirshick/py-faster-rcnn GitHub (Matlab) https://github.com/ShaoqingRen/faster_rcnn
  • 37. R-CNNの流れ R-CNN [CVPR2014] Selective Search [IJCV2013]やBING [CVPR2014]など物体候補領域抽出 + 227x227pixelsの画像からAlexNetの第 6,7層を取り出し,bounding box regressionにより矩形の当てはめ R-CNN+ [PAMI2015] CNN特徴をAlexNetからVGGNetに変更 Pool5が最も精度が高いことが判明 Fast R-CNN [ICCV2015] Selective Search+CNN特徴という形が基本だが,RoIプーリングにより任意の領域サイズを入力として固定の特徴ベ クトルを出力.227x227pixelsの畳み込みを避けることで高速化.Multi-task lossやすべての層のパラメータ更新によ り精度自体も向上. Faster R-CNN [NIPS2015] Fast R-CNNにてボトルネックになっていた物体候補領域抽出をRegion Proposal Networks (RPN)に置き換えることで End-to-Endによる物体検出を実現.最適なRegion Proposal学習のためのLoss Functionも考慮.
  • 38. Keywords: dataset, action recognition, mind’s eye 新規性・差分 データセットの概要 結果 概要 米国国防総省DARPAのMind’s Eyeプロジェクトにて作られた 行動認識用のデータセットを提案する. 行動認識の場面において,YouTubeなどマルチメディアの解析 や実験的な環境ではなく,実際の監視映像において問題を解 決するためのデータセット. 現在までの行動認識データセットは人物が大きく映り込んでいたが,今回の Large Continuous Action Dataset (LCA)は例えば監視カメラレベルの映像 で,人物のスケールが小さい場合にもいかに行動認識をするかを求める.行 動は24種類であるが,最大の違いは5人のアノテータがそれぞれラベルづけ をしているため,正解値にばらつきがあることである. State-of-the-artなアルゴリズム,例えばAction Bank (16.667%)や Improved Trajectories (15.556%),Dense Trajectories (14.074%)でも限ら れた精度でしか行動を認識できないことが判明した. Daniel Paul Barrett, Ran Xu, Haonan Yu, Jeffrey Mark Siskind, “Collecting and Annotating the Large Continuous Action Dataset”, in arxiv, 2015.11. 【32】 Links 論文 http://arxiv.org/pdf/1511.05914v1.pdf プロジェクト http://www.visint.org/datasets 今後,さらに洗練されたア ルゴリズムを考案する必要 性が出てきた.
  • 39.
  • 40. Keywords: Ego-motion, First Person Vision 新規性・差分 手法 結果 概要 エゴモーションにおいて,自分がどう動いているか(how I move),またどのような位置にいるか(how my visual surroundings change)を推定する.その際の有効な特徴につい ても学習する. エゴモーションの自律的な移動に関して,分離性が高い特徴量 を学習する.物理的な運動に対する特徴推定は本研究が初め てであると主張. 特徴として,3次元空間の位置,ロール・ピッチ・ヨー角を取得する.画像とこ れらの運動をペアとして学習して対応付けておく.下図はKITTIデータセットに おける右折・左折・直進の例であり,この場合にはforward distanceとヨー角が もっともエゴモーションを説明できる変数であることがわかる.最適化としては 特徴空間パラメータΘとDxDの有効な特徴マップMのエラー率を最小にするよ うに学習する. Dinesh Jayaranman, Kristen Grauman, “Learning image representations equivariant to ego-motion”, in ICCV, 2015. 【33】 Links 論文 http://arxiv.org/pdf/1505.02206.pdf
  • 41. Keywords: Visual Turing Test 新規性・差分 手法 結果 概要 画像に対する質問を自動で生成してくれる,Visual Turing Test の手法を考案.画像の物体認識やその相対的な関係性などを 記述. CNN+RNNのアプローチにより,従来のVisual Turing Testの精 度を大幅に向上させた. Recurrent Neural Network (RNN)をベースとしたアプローチを提案する.CNNに より物体を認識し,それらの相対的な位置関係を記述.RNNでは言語を扱い,質 問文や返答を認識結果から照合するために用いる.モデルは画像xや質問qが 与えられた時の返答aを探索する問題であり,すべてのパラメータθも判断して 返答の集合Aからベストなものを選ぶ.RNNのモデルには [Donahue+, CVPR2015]を,CNNにはGoogLeNetを用いる. 指標としては,[Malinowski+, NIPS2014]に記載されているWUP (Wu- Palme) scoresを参考にした.DAQUAR dataset (12,468の質問とそれに対 する返答文を含む)をもちいる.識別対象の物体数は37である.精度は 19.43%,WUPSスコアで25.28(0.9),62.00(0.0)であった. Mateusz Malinowski, Marcus Rohrbach, Mario Fritz, “Ask Your Neurons: A Neural-based Approach to Answering Questions about Images”, in ICCV, 2015. 【34】 Links 論文 https://www.d2.mpi-inf.mpg.de/sites/default/files/ iccv15-neural_qa.pdf プロジェクト https://www.mpi-inf.mpg.de/departments/computer- vision-and-multimodal-computing/research/vision-and- language/visual-turing-challenge/ YouTube https://www.youtube.com/watch?v=QZEwDcN8ehs # WUP (Wu-Palme) scoresは言語の精度を示す指標であ り,スコアが高いほど曖昧度が低く精度が高い.
  • 42. Keywords: Pedestrian Detection, Deep Learning, Convolutional Neural Networks (CNN), Cascade 新規性・差分 手法 結果 概要 CNNとの特徴量とカスケード識別器による歩行者検出の論文. Caltech pedestrian benchmarkやKITTI datasetに対して歩行者 検出の実験を行い,良好な精度を達成. Complexity-awareなブースティング手法を提案し,カスケード識 別を実現したことや,プーリングの仕組みにより効果的にCNN 特徴やHand-craftedな特徴を統合した. 有効なブースティングの手法であるComplexity-Aware Cascade Training (CompACT)を提案.学習ではAdaBoostの出力F の(empirical) リスク関数RE[F] や(complexity)リスク関数Rc[F] から構成されるL[F] = RE[F]+ηRc[F]をLagrangianにより最適化する.ACF特徴を前処理として 用い,特徴量のプーリングにはSelf-similarity (SS) feature, Checkerboard feature, HOG, CNNを用いる. 図のように,Caltech datasetに対してエラー率が 11.7%と最高性能を達成し た.CompactはACF + small CNN featureを用い, Compact-Deepは深層学習 にVGG modelも追加した. Zhaowei Cai, Mohammad Saberian, Nuno Vasconcelos, “Learning Complexity-Aware Cascades for Deep Pedestrian Detection”, in ICCV, 2015. (oral) 【35】 Links 論文 http://arxiv.org/abs/1507.05348v1 著者(Z.Cai) https://sites.google.com/site/zhaoweicai1989/ 歩行者検出主要特徴 ACF SS Filter Channel Feat. katamari Spatial pooling+
  • 43. Shenfeng He, Rynson W. H. Lau, “Oriented Object Proposals”, in ICCV, 2015. 【36】 Keywords: Object Proposal, Objectness 新規性・差分 手法 結果 概要 傾き(Orientation)を含めて物体の候補領域を推定する手法 Oriented Object Proposals (OOPs)を提案. ・傾きが発生した場合にも補正することが可能 ・修正されたウィンドウで候補領域を得ることができる ・余分な背景を取得することが低減し,高いRecallを実現できる 全てのウインドウ探索を避けるために異なるポジションに配置された物体から,ス ケールやアスペクト比計算を同時に処理する方法を考案.生成的確率モデルの構 築によりピクセルごとの計算まで可能にした.またそのために背景確率まで計算す る.そのためには,Gradient MapやStructured Edges [Dollar+, ICCV2013]を適用す る.対数尤度により局所最適解を計算し,物体形状は共分散行列により表現され る.最終的な物体の尤度(l)は下記の式により決定し,背景 (l^{bg}),Structured Edges (l^{e}),Gradient Map (l^{g})から総合的に判断される.a1, a2, a3はデータか ら線形回帰により決定づけられる. PASCAL VOC 2007で実験したところ,最先端の精度で物体を検出することができ た.さらには,高いRecall rateを実現し,余分な物体候補領域を削減することに成 功した. Links 論文 http://www.shengfenghe.com/uploads/1/5/1/3/15132160/ oop_iccv15.pdf プロジェクト http://www.shengfenghe.com/oriented-object-proposals.html YouTube https://www.youtube.com/watch?v=_iS9qoYWKpk 図は精度の比較である.左図はIoU (バ ウンディングボックスの重なり)が50%, 右図は80%の時の精度である.正規の 手法で比較すると必ずしも最先端では ないが,物体検出で計測するとかなり 高い精度で検出が可能.
  • 44. Mihir Jain, Jan C. van Gemert, Thomas Mensink, Cees G. M. Snoek, “Objects2action: Classifying and localizing actions without any video example”, ICCV, 2015. 【37】 Keywords: Zero-shot Learning 新規性・差分 手法 結果 概要 行動認識をサンプルなし(Zero-shotベース)に理解する方法で ある.これに対して,objects2actionと呼ばれる,word2vecでも 用いられるskip-gram表現を用いて数千種類にものぼる物体の カテゴリを表すことである.ある行動に対して複数の物体が概 念としてエンコードされる. 主な新規性としてobjects2actionという表現方法を提案すること である.従来のZero-shotベースの方法と異なる点は,属性情 報や,転移のためのクラス-属性のマッピングを与えることなし に行動を認識する点である. 図はobjects2actionのデータフローである.訓練クラスラベルYとZero-shotテストク ラスZに重なりはないものとする.サンプルXが与えられ,D={X,Y}が与えられ学習を 実行する.通常のZero-shot学習と異なる点は,(i)テストが行動Zを分類するため, テストサンプルがビデオVであること,物体のラベルYはImageNetから取得されるも のとする (ii)物体の意味空間Yから行動ラベルZへと転移させる点,である.特徴の 表現として,Average Word Vectors (AWV)やFisher Word Vectors (FWV)を適用し た. 左表が結果である.AWVやFWVをそれ ぞれUCF101, HMDB51, THUMOS14, UCF Sportsに適用した.また,実験で は物体の転移や行動の転移について も比較して考察した(右表). Links 論文 http://isis- data.science.uva.nl/ cgmsnoek/pub/jain- objects2action-iccv2015.pdf
  • 45. Justin Johnson, Andrej Karpathy, Li Fei-Fei, “DenseCap: Fully Convolutional Localization Networks for Dense Captioning”, in arxiv, 201511. 【38】 Keywords: Image Captioning, DenseCaptioning 新規性・差分 手法 結果 概要 Dense Captioningは画像内の生成文を密にすること.物体の検 出結果やその相対的な位置関係などから文章を生成する.物 体認識にはFully Convolutional Localization Network (FCLN), 言語処理にはRecurrent Neural Network (RNN)を用いる. 「画像識別」では画像に対してSingle Labelしか用意できない, 「物体検出」においても,画像中の物体に応じたタグ付けのみ である.「画像説明文」ではより画像内の理解が進んでいるが, さらに画像内にて説明文のラベルを増したことが新規性であ る.直感的には1枚の画像から領域ごとに説明文を付けること である. また,Faster R-CNNにおいては候補領域を抽出するRegion Proposal Network (RPN)を提案し,4ステップの最適化を実装し たが,この方法ではRoIプーリングの代わりにspatial soft attention mechanismを導入し誤差伝播できるようにした. Localizationも含めて説明文のための画像を抽出するFully Convolutional Localization Layer (FCLL)を提案.基本的にCNNはVGGモデルを適用し,FCLLは 5th-pooling-layer以降の代わりとして用いられる.また,Faster R-CNNのRPNを参 考にするが,RoIプーリングをSpatial Soft Attention Mechanismに置き換える.候 補領域の抽出では,最大の候補数を300に設定,座標やそれに対するスコアや特 徴量を抽出し,Bounding Box Regressionも行う.Bilinear Interpolationは候補領域 のサイズやアスペクト比の変動を考慮して特徴抽出.RNNの言語モデルは最近の 従来法を参考にしており,Long-Short Term Memory (LSTM)を使用. Visual Genome Dataset (VGD)を使用した.VGDには94,000枚の画像,4,100,000も の領域ベースのキャプショニングが付加されている. Links 論文 http://arxiv.org/pdf/1511.07571v1.pdf 著者 http://cs.stanford.edu/people/karpathy/ http://cs.stanford.edu/people/jcjohns/ データセット https://visualgenome.org/
  • 46.
  • 47. Bolei Zhou, Aditya Khosla, Agata Lapedriza, Aude Oliva, Antonio Torralba, “Learning Deep Features for Discriminative Localization”, in arXiv 1512, 2015. 【39】 Keywords: Object Localization, Class Activation Mapping 新規性・差分 手法 結果 概要 畳み込み層のマップを利用して物体検出を実行する. Class Activation Maps (CAM)を提案して,物体検出のための 尤度マップを作成する. 下図のように畳み込み層に立ち返って活性化のマップと重みを累積する.全結合 層では位置情報が消えてしまうが,畳み込み層に残る位置情報とクラスの確率値 を累積して計算.アーキテクチャはGoogLeNetやNetwork in Network (NIN)と類似 したものを適用し,出力層の手前の畳み込み層から取り出した活性化関数f_k(x,y) を使用.この場合,softmax Scに直結する重みはクラス数に一致するため,各クラ スの尤度と畳み込みに残る位置を取得できるという仕組み. ILSVRC2014の物体検出チャレンジにおいて37.1%のエラー率(top-5)と,フルCNN 学習モデル34.2%に近い精度を実現した.左はエラー率の比較. Links 論文 http://arxiv.org/pdf/1512.04150.pdf プロジェクト http://cnnlocalization.csail.mit.edu/
  • 48. Olga Russakovsky, Li Fei-Fei et al., “ImageNet Large Scale Visual Recognition Challenge”, in IJCV, 2015. 【40】 Keywords: ImageNet, ILSVRC, Object Recognition 内容 結果 概要 ILSVRCにて用いられるImageNetデータセットのジャーナル版.CVPR2009のImageNet論文と異なる点は,データの拡張や2014年までのチャレンジの結果 などが記述されている点である.ここではアップデートや詳細情報について記述する. ・2010年から2014年までで50以上のチームが参加した ・関連する試みはCaltech-101, Caltech-256, TinyImages dataset, WordNet, LabelMe, SUN, MSRC, Stanford Background, Berkeley Segmentation, OpenSurfaces, PASCAL VOC, COCO, Labeled Faces in the Wild (LFW), KITTI ・アノテーションにはAmazon Mechanical Turkを用いる ・タスクはImage Classification (2010-2014),Single-object localization (2011-2014),Object detection (2013-2014) ・Classification taskのデータはFlickrや他検索エンジンから抽 出 ・ 次から2ページに渡り,ILSVRC2010-2014の結果を表示. Links 論文 http://arxiv.org/pdf/1409.0575.pdf プロジェクト http://www.image-net.org/ ・カテゴリ分けはWordNetに基づいて行う ・カテゴリ毎にバリエーションをもたせて画像を収集するために,複数の画像検索 エンジンを用いている. ・さらにはアノテーションの問題.クラウドソーシングによりバウンディングボックス やカテゴリを挿入.
  • 49.
  • 50.
  • 51. Alex Kendall, Vijay Badrinarayanan, Roberto Cipolla, “Bayesian SegNet: Model Undertainty in Deep Convolutional Encoder-Decorder Architectures for Scene Understanding”, in arXiv 1511, 2015. 【41】 Keywords: Bayesian SegNet, Semantic Segmentation 新規性・差分 手法 結果 概要 セマンティックセグメンテーションを行うSegNetを提案した.ネッ トワークアーキテクチャにて特徴のエンコーディングとセグメン テーション画像を復元していくでコーディング(Encoder- Decorder)を行う. 主な新規性としては,Encoder-DecorderのCNNアーキテ クチャに対し,Dropoutを確率的にして効果的なセグメン テーションを実現したことである.ソフトマックスによる出 力がそのままセグメンテーション結果となっているため, 出力層のDropoutが非常に重要であるという提案. アーキテクチャは下図に示される通り13層構成で,Encoder-Decorderの構造を保 持している点や出力であるソフトマックス層のDropoutにてMonte Carloサンプリン グを導入した.これは,セマンティックセグメンテーションの精度を向上させるため の工夫である.畳み込みの重みWはベルヌーイ分布にてサンプリングすることで, パラメータの調整が非常に効率化した. CamVid Road,SUN RGB-D,VOC 2012に対して実験を行った.Dropoutサンプリン グが有効である(Sampling数は10~20で飽和)ことや,概ね精度が向上していること が判明した.下はSUN RGB-DのSemant. Seg.の結果. Links 論文 http://arxiv.org/pdf/1511.02680v1.pdf プロジェクト(コードあり) http://mi.eng.cam.ac.uk/projects/segnet/ YouTube https://www.youtube.com/watch?v=e9bHTlYFwhg
  • 52. Tomas Mikolov, Kai Chen, Greg Carrado, Jeffrey Dean, “Efficient Estimation of Word Representations in Vector Space”, ICLR, 2013. 【42】 Keywords: Word2Vec 新規性・差分 手法 結果 概要 Word2Vecの論文.単語の概念間の計算を行うために,大規模 なテキストデータからその統計値を計算した. 単語間の意味的な関係性を記述・計算できるようにした画期的 な手法.単語の分散表現を学習する手法にはNNLMがあるが, これはニューラルネット言語モデルであり,フィードフォワード NNを線形射影層と非線形隠れ層とを組み合わせ,単語ベクト ル表現と統計的言語モデルを同時に学習する. 例えば,vector(“King”) – vector(“Man”) + vector(“Woman”) = vector(“Queen”)な ど,概念間の計算を効率的にやりとりできるようにした.ニューラルネットを用いて いるが,DistBelief[Dean+, NIPS2012]により学習した. ・単語の表現としてはContinuous Bag-of-Words (CBOW)を採用した.これは,現在 の単語の周辺の単語を用いて現在の単語を予測する表現である.普通のBOWと は異なり,分散表現を用いることが可能. ・Continuous Skip-gramモデルでは文脈から現在の単語を予測するのでなく現在 の単語から周辺の単語を予測する.文脈長を広げると単語ベクトルの質はよくなる が,計算量が大きくなるし,離れれば離れるほど現在の単語と無関係になるので, 距離に応じてダウンサンプリングする. 6億を超える単語数を保持するGoogleNewsからモデリングを行った.下の表は783 万単語から学習された300次元Skip-gramの出力である. Links 論文 http://arxiv.org/pdf/1301.3781.pdf プロジェクト(コードあり) https://code.google.com/p/word2vec/ SlideShare http://www.slideshare.net/mamoruk/iclr2013-word2vec
  • 53. Yangqing Jia, Evan Shelhamer, Jeff Donahue, Sergey Karayav, Jonathan Long, Ross Girshick, Sergio Guadarrama, Trevor Darrell: Caffe: Convolutional Architecture for Fast Feature Embedding, ACM Multimedia, 2014. 【43】 Keywords: Caffe, Deep Learning 新規性・差分 手法 他フレームワークとの比較 概要 UC Berkeleyが提供する,深層学習フレームワークであるCaffe の論文.Caffeでは主に画像向けのConvolutional Neural Networks (CNN)を提供した. 他の画像認識用ディープラーニングと比較して高速な実装を提 供した.また,基本的なPre-trainedモデルが備えられているこ とや,開発のコミュニティが充実していることも大きなポイントの ひとつである. LeNet-5やILSVRC2012 winnerのAlexNet,より深い構造のVGGNetやGoogLeNet が初めから実装されている,もしくはダウンロードして簡易的に使用することが可 能である..prototxtファイルを用いると,中間層から抽出した特徴を用いることがで きる.また,ImageNet+αの学習としてFine-tuningが用意されている.フルスクラッ チの学習も,自ら学習データやパラメータ,CNNの構造を設定することで可能. Fine-tuningを行い,コンペティションの1,000クラスのみならず,10,000クラスの分類 も配布している. 下に他のフレームワークとの比較を示している. Links 論文 http://ucb-icsi-vision-group.github.io/caffe-paper/ caffe.pdf プロジェクト(コードあり) http://caffe.berkeleyvision.org/ 山下隆義先生(中部大)の資料:Caffeの扱い方についてスラ イドの最後の方に非常によくまとめられている http://www.slideshare.net/Takayosi/deep-learning-seminar
  • 54. Keywords: R-CNN, Deep Learning, Convolutional Neural Networks (CNN), Object Detection 新規性・差分 手法 結果 概要 CNNの構造の中で物体検出できる仕組みを実装した. R-CNNはselective searchにより物体候補領域を抽出し,CNN により識別する手法であるが,CNNの構造内で検出までできる かもしれないという主張.Spatil Pyramid Pooling (SPP)[1]や selective searchによる物体検出の解析と検討をしている. まず,SVMは冗長でありCNNの構造内で識別まで全て完結することができる ということを検討. 次にSPPとbounding box regressionをbank of filterの枠組みの中で統合.ス ケーリングについても考察し,単一スケールでも処理速度を保てるようにし た. 表に結果を示す.各項目について有効性を確認しただけでなく,処理速 度も1フレーム160msであり,従来の16倍以上(2.5s)高速にした. Karel Lenc, Andrea Vedaldi, “R-CNN minus R”, in BMVC, 2015. 【44】 Links 論文 http://www.robots.ox.ac.uk/~vedaldi/assets/pubs/lenc15rcnn.pdf 著者 (Andrea Vedaldi) http://www.robots.ox.ac.uk/~vedaldi/index.html コードMatConvNet: CNN for MATLAB http://www.vlfeat.org/matconvnet/ [1] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. In ECCV, 2014.
  • 55. Keywords: Convolutional Neural Networks (CNN), Deblurring, Blind Decovolution 新規性・差分 手法 結果 概要 Convolutional Neural Networks (CNN)を用いた,blind deconvolutionに関する研究.文字OCRのための文字認識に着 目した. Schulerら[27]の手法が比較として挙げられるが,CNNのネット ワークが小規模であり,画像の復元もスタンダードなデブラー の手法である. x = F(y, θ)のθを求めるためにに(x,y)のペアを学習する.文字 は非常に強い事前情報を保持しており,学習ベースの復元は 有効である.本稿で用いられるCNNの構造は15層である.フィ ルターやチャネル数は表の通り. 下は実際にCNNを用いてデブラーをした結果である.OCRを用いて処理した 結果,通常通り文字認識ができることを実証した. Michal Hradis, Jan Kotera, Pavel Zemcik, Filip Sroubek, “Convolutional Neural Networks for Direct Text Deblurring”, in BMVC, 2015. 【45】 Links 論文 http://bmvc2015.swansea.ac.uk/proceedings/papers/paper006/paper006.pdf 概要 http://bmvc2015.swansea.ac.uk/proceedings/papers/paper006/abstract006.pdf プロジェクト http://www.fit.vutbr.cz/~zemcik/pubs.php?id=10922