cvpaper.challenge	
Twitter@CVPaperChalleng
http://www.slideshare.net/cvpaperchallenge
MAILTO: cvpaper.challenge[at]gmail[dot]com
Haoyu Ren, Ze-Nian Li, “Object Detection Using Generalization and Efficiency Balanced Co-occurrence
Features”, in ICCV, 2015.	
【1】	
Keywords: Co-occurrence Features, Generalization and Efficiency Balanced (GEB) framework for Boosting	
新規性・差分	
手法	
結果	
概要	
Haar-lke特徴,Local Binary Pattern (LBP), HOGに関する共起
特徴を用いるが,効果的な弱識別器の学習として
Generalization and Efficiency Balanced (GEB)フレームワークを
提案し,ブースティングに活用する.	
共起特徴量を用いたブースティングのための弱識別器学習法
を提案することで,高精度かつ高効率な物体検出方法を提供
する.共起特徴量は背景ノイズや姿勢,照明変動などに影響を
受けるが,それらを解決.	
CoHaar, CoLBP, CoHOGを構築.	
Co-Haar: Haar特徴の重みは全体で0になるように調整.x,y方向に勾配も量子化し
て共起させる.	
CoLBP: 右図を参考にして,クラスタを作成する.2つのクラスタの組み合わせによ
り共起特徴を構成.	
CoHOGはWatanabe[Watanabe+, 2009]論文を参考.	
基本的にはReal AdaBoostをベースにしているが,共起特徴に特化するためにオフ
セットの位置を考慮した重み付けや効率化のパラメータを設けている.	
下図はINRIA person datasetでの実験結果である.共起
特徴統合の精度はmiss rateが15%であった.GEB
+AllCoFeatureの結果はCaltech pedestrian datasetにてエ
ラー率が24%であった.	
Links	
論文
http://www.cv-foundation.org/openaccess/content_iccv_2015/
papers/Ren_Object_Detection_Using_ICCV_2015_paper.pdf	
著者 http://www.sfu.ca/~hra15/
Pulkit Agrawal, Joao Carreira, Jitendra Malik, “Learning to See by Moving”, in ICCV, 2015.	
【2】	
Keywords: Perception, 	
手法	
結果	
概要	
現在の特徴抽出はニューラルネットに着目していると言える.こ
こで,動きの特徴を効果的に捉え,物体認識やシーン認識,
visual odometryやマッチングなどに使うための特徴について考
察する.本研究では,単純なエゴモーションから学習される
モーションを使用してビジョンの各タスクに応用する.	
特徴学習には下図のようなニューラルネットのアーキテクチャを構築する.特に,
Siamese CNNを参考としており,二枚の学習を入力して画像間の違い,ここでは
Transformationを出力する.中間層では二つのBase-CNNを統合(差分を取得?)し
ている.特徴の学習にはSlow Feature Analysis (SFA; 下式)を採用.L2ノルムを採
用し,誤差の計算に適用した.	
左はKITTIデータにおけるvisual odometry(error rate)である.Fine-tuningのサンプ
ル数が増えるほどエラー率は低下する.Pre-training modelは文字認識のMNIST
である.シーン認識であるSUNデータでも精度を比較した.	
結果的に,エゴモーションが有効であるということを実証した.	
Links	
論文
http://www.cv-foundation.org/openaccess/content_iccv_2015/
papers/Agrawal_Learning_to_See_ICCV_2015_paper.pdf
Mattis Paulin, Matthijs Douze, Zaid Harchaoui, Julien Mairal, Florent Perronnin, Cordelia Schmid, “Local
Convolutional Features with Unsupervised Training for Image Retrieval”, in ICCV, 2015.	
【3】	
Keywords: Stereo Matching, Local Conv Features	
新規性・差分	
手法	
結果	
概要	
ステレオマッチングなどのタスクにおいてはローカルな特徴は
非常に重要であるが,本研究ではCNNにより局所的に類似す
る特徴をモデリングする.著者らが考案するConvolutional
Kernel Network (CKN)を局所領域に適用したPatch-CKNを適
用してステレオマッチングを行う.	
SIFTの代替となるようなCNNのローカルパッチベースの記述子
patch-based CKNを考案する.また,Rome-Patchesデータセッ
トを考案し,パッチベースの特徴記述子の精度を競う.	
下表に記述子の比較を示す.	
提案のCNNでは51x51pixelsのパッチを入力として類似
度を出力する.基本的には従来と同じようなモデルを
持っているが,特徴(kernel)マップによりパッチ同士を
比較する.	
RomePatchesデータセットは16,719画像から構
成されているデータであり,66のバンドル(視
点?)から構成される.9,000のターゲットポイント
や1000のクエリが訓練・テストに含まれるため
20,000のパッチがトータルとして入手できる.評
価にはMean Average Precisionを算出する.
SIFTや従来のCNNと比較した例が右表である.	
Links	
論文
http://www.cv-foundation.org/openaccess/content_iccv_2015/
papers/Paulin_Local_Convolutional_Features_ICCV_2015_paper.pdf	
プロジェクト(コードあり)
http://lear.inrialpes.fr/people/paulin/projects/RomePatches/
Xun Huang, Chengyao Shen, Xavier Boix, Qi Zhao, “SALICON: Reducing the Semantic Gap in Saliency
Prediction by Adapting Deep Neural Networks”, in ICCV, 2015.	
【4】	
Keywords: SALICON (Saliency in Context)	
新規性・差分	
手法	
結果	
概要	
コンテキストに着目した顕著性マップの生成,SALICON
(Saliency in Context)の提案.SALICONの実現のためにDeep
Neural Networks (DNN)を用いる.	
タスクに合わせたデータセットによるFine-tuningと複数の画像
サイズを統合した評価法.	
Pre-trained modelの学習にはImageNetを用いる.顕著性マップの推定と物体認識
のギャップを埋めるためにFine-tuning CNNを用いる.複数スケールの画像も統合
する.	
本研究においてはAlexNet, VGG-16, GoogLeNetを組み合わせた.これらのニュー
ラルネットは複数のMax-poolingを保持しており,さらには複数の非線形畳み込み
層を含む.左図はSALICONのアーキテクチャである.図の例ではふたつのスケー
ルの画像を入力とした顕著性マップの推定である.	
データセットにはOSIE, MIT1003, NUSEF, FIFA, PASCAL-S, Torontoを適用した.
評価にはsAUC (shuffled-Area Under the Curve)を使用.訓練とテスト法について
も論文に記載.下は結果の一例.AlexNet, VGG-16, GoogLeNetにてそれぞれ 
SVM, Coarse, Fine, Fine+Coarsed (Fixed), Fine, Fine+Coarsedと比較している.	
Links	
論文
http://www.cv-foundation.org/openaccess/content_iccv_2015/
papers/Huang_SALICON_Reducing_the_ICCV_2015_paper.pdf	
プロジェクト http://salicon.net/	
デモ http://salicon.net/demo/
Edgar Simo-Serra, Eduard Trulls, Luis Ferraz, Iasonas Kokkinos, Pascal Fua, Francesc Moreno-Noguer,
“Discriminative Learning of Deep Convolutional Feature Point Descriptors”, in ICCV, 2015.	
【5】	
Keywords: Patch Representation, Siamese network	 手法	
結果	
概要	
パッチサイズの表現能力を高めるためにConvolutional Neural
Networks (CNN)を用いる.CNNの中でも特にSiamese network
を用いることでパッチペアの対応関係を学習する.	
Siameseネットワークは重みを共有するネットワークであり,損失関数がL2距離で
ある.Siamese Networkを学習するためにMulti-View Stereo (MVS)データセットを
用いる.MVSには1.5Mの64x64pixelsのグレースケール画像が含まれる.	
しかし,空間の距離が離れているパッチの類似度計算は困難であるため,この探
索に学習済みのSiameseネットワークを用いる.誤差逆伝播法は誤差が大きい時
のみ行う.	
MVSデータセットにて学習しテストする.
学習にはSGD,学習率を0.01にして
10,000回の学習ごとに1/10に更新す
る.momentumは0.9に設定.右がステレ
オベースライン3vs5の結果である.実験
では回転への不変性やwide-baselineへ
の対応,照明変動も確認した.	
Links	
論文
http://www.cv-foundation.org/openaccess/content_iccv_2015/
papers/Simo-
Serra_Discriminative_Learning_of_ICCV_2015_paper.pdf	
動画 https://www.youtube.com/watch?v=QPMEakAPIsw	
プロジェクト(コードあり)
http://hi.cs.waseda.ac.jp/~esimo/ja/research/deepdesc/
Shubham Tulsiani, Joao Carreira, Jitendra Malik, “Pose Induction for Novel Object Categories”, in ICCV, 2015.	
【6】	
Keywords: Pose Prediction	
手法	
結果	
概要	
アノテーションされていないカテゴリの3次元物体姿勢を推定す
る問題.新規の物体をCGなどで生成してリアリティを出すため
に動物やバイクなど物体の姿勢を推定.	
提案手法の概要は下図に示される通りである.既知物体からアノテーションを行
い,物体姿勢を学習する.次にインスタンス作成のため姿勢の仮説を生成.最後
に部分ごとに意味付け(Reasoning)を行い,推定を高精度化.	
検証のためには,PASCAL3D+データセットを用いる.左表は物体クラスの結果例
であり,提案のGeneralized Classifier (GC)の方が精度が安定してよかった.CNNも
適用しており,VGGNetベースのアーキテクチャを学習.右表はreasoningの結果で
ある.	
Links	
論文
http://www.cv-foundation.org/openaccess/content_iccv_2015/
papers/Tulsiani_Pose_Induction_for_ICCV_2015_paper.pdf	
GitHub https://github.com/shubhtuls/poseInduction 	
著者ページ http://www.cs.berkeley.edu/~shubhtuls/
Alexander Richard, Juergen Gall, “A BoW-equivalent Recurrent Neural Network for Action Recognition”, in
BMVC, 2015.	
【7】	
Keywords: Action Recognition, BoW, Recurrent Neural Networks (RNN)	
新規性・差分	
手法	
結果	
概要	
Bag-of-words (BoW)のより有効な使用法として,Recurrent
Neural Networks (RNN)による表現方法により行動認識に適用
する.実験では4種類のベンチマークに対して行う.	
従来,BoWのベクトルはSVMなどにより識別が実行されてきた
が,本研究ではRNNを用いて行動認識に対する有効性を示
す.	
右図はHMDB51やUCF101を用いた
実験である.state-of-the-artなモデ
ルであるIDT+FVなどには及ばない
が,BoWモデルでも良好な精度であ
ることを確認した.	
Links	
論文
http://www.bmva.org/bmvc/2015/papers/paper057/index.html	
	
BoWは通常,k-meansクラスタリングやGMMによりベクトル量子化を行う.Hard
assignmentやSoft assignmentなどもテクニックの一つであり,k-meansはGMMの特
殊な場合であると考えることができる.ここではvisual wordsの事前確率を1に正規
化し,Neural Networkへの入力とする.従来は線形SVMにより識別していたが,本
論文ではsoftmax layerにより識別とそのための最適化を行う.下図はRNNのモデ
ルであり,最初の層でBoWからsoftmax層へ入力,次に繰り返し処理,最後に識別
のsoftmax層にてラベルを出力する.
Kasim Terzic, Hussein Adnan Mohammed, J.M.H. du Buf, “Shape Detection with Nearest Neighbor Contour
Fragments”, in BMVC, 2015.	
【8】	
Keywords: Shape Detection, Nearest Neighbor, Contour	
手法	
結果	
概要	
物体検出のために輪郭検出の高精度化を図る論文.仮設の生
成,モデルの生成,仮設の検証を効果的に行うことができるフ
レームワークを提案する.	
断片化された輪郭をつなぐためにBayesに基づく推定を行う.欠損を含む輪郭情報
sをあるクラスcに属するかどうかを手がかりに,下記d(s)をベースに推定する.さら
に,補助的な尤度をNearest Neighborにより計算する.論文中ではrelevance r(s,c)
を定義した.	
下図はフロー図である.	
下図はETHZ datasetに対する精度である.	
Links	
論文
http://www.bmva.org/bmvc/2015/papers/paper059/index.html
Bilge Soran, Ali Farhadi, Linda Shapiro, “Generating Notifications for Missing Actions: Don’t forget to turn the
lights off!”, in ICCV, 2015.	
【9】	
Keywords: Action Recognition, Action Analysis	
手法	
結果	
概要	
一人称ビジョンにおける日常行動の解析.行動間の関連性を
解析し,行動の「し忘れ」がないかを通知する.同時に,新しい
一人称ビジョンのデータセットも公開する.	
下図はLatteを作っている例である.文脈から行動予測と行動認識を同時に推進
し,行動の抜けがあった場合に通知する.ここでは,早期行動認識と一人称ビジョ
ンにおける行動の切り替わり(Action Segmentation)を同時に行わなければいけな
い.さらには,予めイベント内(latte making)に含まれるオーダーと遷移を学習しな
ければならない.下図は遷移モデルや行動のクラスを示す.行動クラスは始まり・
途中・終わり状態を含むので29x3=87クラスで表現.	
LooxcieHDを装着した一人称ビデオでデータ
セットを作成.約100,000フレームの15fps動画.
23本のイベント動画を訓練として,18本の「し忘
れ」ありの動画にてテストする.さらに,29の行
動クラスが存在する.	
Overall accuracy: 46.2% (行動の開始時から10フ
レーム), 72.7% (すべての時系列情報が与えられ
た際).行動予測と行動認識の精度は68.3%であ
る.	
Links	
論文
http://www.cv-foundation.org/openaccess/content_iccv_2015/
papers/Soran_Generating_Notifications_for_ICCV_2015_paper.pdf	
プロジェクト
Zichao Yang, Marcin Moczulski, Misha Denil, Nando de Freitas, Alex Smola, Le Song, Ziyu Wang, “Deep Fried
Convnets”, in ICCV, 2015.	
【10】	
Keywords: CNN, ConvNets	
新規性・差分	
手法	
結果	
概要	
全結合層のパラメータが異常に多い.Deep Fried Convnetsで
はFastfood TransformをNN用に改良し,全結合層の行列計算
を少数のパラメータで近似できるようにした.	
本来は無限次元なものを,有限の次元で近似することができ
る,この仕組みを用いて,膨大なパラメータを持つ全結合層の
パラメータをより低次元で近似する.	
Fastfood TransformはRandom Kitchen Sinkを高速化する手法として提案された.
Random Kitchen Sinkはカーネルと等価な特徴ベクトルをサンプリングで算出する.
本来は無限次元なものを,有限の次元で近似することができる.この仕組みを用
いて,膨大なパラメータを持つ全結合層のパラメータをより低次元で近似する.	
Deep Learningへは,全結合層をAdaptive Fastfood Transformで置き換える(下
図).Random Projection (RP; ランダムな行列をかけるだけで高次元データをデー
タ間の距離関係を保ったまま低次元化できる)と比較すると必要な記憶容量・計算
量も低い,学習可能であり精度が高いという特徴がある.	
上の表は全結合層のモデルで比較
@MNIST(Fastfood 1024dim, 2048dimがベスト),下
の表は同じく全結合層のモデルで比較@ImageNet
(Adaptive Fastfoodがベスト),それ以外にも畳み
込み層も含めて学習した結果やSVDによる次元削
減法との比較も実験にて示されている.	
Links	
論文
http://www.cv-foundation.org/openaccess/content_iccv_2015/
papers/Yang_Deep_Fried_Convnets_ICCV_2015_paper.pdf	
参考資料
http://www.slideshare.net/FujimotoKeisuke/deep-fried-convnets
Chao Ma, Jia-Bin Huang, Xiaokang Yang, Ming-Hsuan Yang, “Hierarchical Convolutional Features for Visual
Tracking”, in ICCV, 2015.	
【11】	
Keywords: Object Tracking	
新規性・差分	
手法	
結果	
概要	
CNNの上位層と下位層を組み合わせてオンライン学習を実行
する.	
上位層と下位層を組み合わせて,さらにLinear Correlation
Filtersベースのオンライン学習を実行することにより,最先端の
精度を実現.	
Fine-tuningなしのVGG3,4,5層目の最後の特徴量を利用(左下図).全結合層では
なく畳み込み層の特徴マップを用いることで位置情報を求め,さらに上位層から特
徴を取り出すことで抽象化された意味を結合できる.物体位置はこれらの特徴マッ
プから推定する.特徴マップの可視化は(右下図).	
オンライン学習にLinear correlation filtersを適用する.	
下の表はstate-of-the-artとの比較である.各タスクにおいて良好な性能を示した.ここで,計算時間の
45%はCNNのforwardに要している.AlexNetとVGGNetの比較や,Hypercolumns[Hariharan+, CVPR2015]
の特徴マップとも比較した.	
Links	
論文 	
プロジェクト
https://sites.google.com/site/jbhuang0604/publications/cf2	
コード https://github.com/jbhuang0604/CF2
Juan C. Caicedo, Svetlana Lazebnik, “Active Object Localization with Deep Reinforcement Learning”, in ICCV,
2015.	
【12】	
Keywords: Deep Reinforcement Learning, DQN	
新規性・差分	
手法	
結果	
概要	
強化学習用のニューラルネット,Deep Q Networks (DQN)を物
体検出に適用.	
物体検出の最先端はR-CNNやその一連の改
善であるが,その代替としてDQNを適用する.
R-CNNでは候補領域を抽出しているが,その
代わりの動作(並進,拡大縮小)をDQNが行う.
最終的な探索領域は圧倒的に少ない数でおさ
まった.Selective Searchが約2000/imageに対
してDQNは数十オーダ.	
DQNの強化学習では,ある観測とそれに伴う報酬により行動をより賢くするように
学習する.9つのアクション(a; bboxの並進,拡大縮小,trigger),とアクションに伴う
報酬を学習.報酬は正解矩形と推定したbboxの領域評価(IoU)を指定する.右図は
本研究で用いたCNNの構造.	
下の表に結果を示す.テストはPASCAL VOC2007にて行い,結果からR-CNNには
及ばなかったものの,それ以外の手法と比較すると高い精度を実現した.また,候
補の数が少ない時のrecallが圧倒的に他のobjectness手法と比較すると高いこと
が判明した.	
Links	
論文
http://web.engr.illinois.edu/~slazebni/publications/
iccv15_active.pdf	
プロジェクト 	
参考資料
http://www.slideshare.net/takmin/cvactive-object-
localization-with-deep-reinfocement-learning
Jungseock Joo, Francis F. Steen, Song-Chun Zhu, “Automated Facial Trait Judgment and Election Outcome
Prediction”, in ICCV, 2015.	
【13】	
Keywords: Election, Face Recognition	
新規性・差分	
手法	
結果	
概要	
選挙の顔画像から,どちらの候補者が勝ったのかを判定する
システムを作成した.	
非常に面白い論文.複数の質問事項から学習データを収集
し,Low-, Mid-, High-levelな特徴や属性を与える.選挙におけ
る自動判別を初めて行った論文であると位置付けた.	
年齢・富・知性・身だしなみ・自身・活力・魅力(顔?)・男(女)らしさの8つの指標で評
価する.左下は2016年の大統領選挙の予想結果である.8つの指標の評価のため
に,顔画像の入力からActive Appearance Model (AAM)による顔特徴点やHOG,
Colorなどの特徴を抽出し,Middle-levelな属性を推定する.8つの指標はRank-
SVM (Relative Attribute)により学習・推定.	
データセットには650画像 (男性491人,女性159人)を含む.これらの画像は2000年
~2012年の政治家の画像であり,wikipediaから収集した.テストには2014年の選挙
の画像を用いている.	
Governorsを67.9%で,Senatorsを65.5%の精度で判定した.その他,共和党か民主
党かを男性62.6%,女性60.1%の確率で正答した.	
Links	
論文 http://web.cs.ucla.edu/~joo/joo_iccv15_face_election.pdf	
プロジェクト http://www.viz2016.org/facial-traits/	
著者ページ http://www.viz2016.org/
Ce Liu, Jenny Yuen, Antonio Torralba, “SIFT Flow: Dense Correspondence across Scenes and Applications”,
in TPAMI, 2011.	
【14】	
Keywords: SIFT Flow, Dense SIFT, Feature Correspondence	
新規性・差分	
手法	
結果	
概要	
ピクセルごとに計算した密なSIFTにより画像間の対応関係を計
算するSIFT Flowを提案.画像自体を128dimのSIFT特徴で表現
し,画像間のフローを抽出.異なるシーンの同クラス物体から
のフローを計算可能にする.	
フローを抽出するという意味ではOptical Flowと類似するが,
SIFT Flowの場合には大域的にフローを抽出することができる.
また,SIFT特徴の密な表現により,異なる個体間においてもフ
ローを抽出することに成功した(下図).	
入力画像のすべての画素に対応するSIFT (128 dims)を計算する.これはDense
SIFTと呼ばれる方法で,画像全体をSIFTで抽象化する.これにより,同クラスの形
状が類似する物体(左下図の2台の車など)の対応関係を取得できるようにする.可
視化のために上位3の主成分を抽出している(下図)が,マッチングの際には
128dimsの生ベクトルにアクセスする.	
マッチングはOptical Flowと類似するが,SIFT Flowの際にはdata term(式の1行目)
によりw(p) = (u(p), v(p))へのベクトルフロー最適化,small displacement term (式の
2行目)により最小のフローベクトルへの拘束を,smoothness term(式の3行目)はフ
ローベクトルの非連続性や外れ値の影響を低減する.目的関数を最適化するた
め,Dual-layer Loopy Belief Propagationを適用した.また,高速化のため,
Coarse-to-Fine探索を実行した(右図).	
右図は惑星探査の画像.4年間日を空けて
撮影された画像に位置ズレが生じている.こ
の結果から,断層が動いていることがわか
る.異なる視点の物体の移動やオプティカル
フローのように時系列の動きに対しても頑健
に作用することが判明した.また,顔認識や
画像解析,画像合成のデータベース生成な
どにも適用可能性を示した.	
Links	
論文 http://people.csail.mit.edu/celiu/SIFTflow/SIFTflow.pdf	
プロジェクト http://people.csail.mit.edu/celiu/SIFTflow/	
参考資料(30, 31ページ)
http://www.slideshare.net/MakotoKimura/20140726-cv
Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, “Deep Residual Learning for Image Recognition”, in arXiv,
1512.03385, 2015.	
【15】	
Keywords: ResNet, Deep Residual Networks, ILSVRC2015	
新規性・差分	
手法	
結果	
概要	
残差(Residual)の学習をすることで構造をディープにしても画像
認識の精度を向上させたDeep Residual Networks (ResNet)を
提案.画像認識には152層のResNetが,物体検出やセマン
ティックセグメンテーションには50/101層のResNetが良かったと
主張.	
現在までのDeeperネットはVGGNetがあげられる.VGGNetでは
最大で19層であるが,実にその8倍の深さである152層のネット
ワークにて学習しても勾配を損なわずに学習し,精度を向上さ
せることに成功した.	
主には順伝播と数回の畳み込みを省略した特徴マップの残差を計算・学習をくり
かえす.単純に深くするよりも訓練やテストエラーともに向上した.特徴として,	
・Max-poolingでなく,Average-poolingのみ	
・全結合層はほとんど含まず,基本的にはsoftmax層につながる部分のみ	
・ImageNetのテストセットにて3.57%のtop-5 error rate	
・ダウンサンプリングにはストライドを2x2にする	
・パラメータ数がVGGNetの18%に削減(VGG: 19.6B, Res: 3.6B)	
・Shortcut Connectionによるパラメータや計算複雑性の増加はない	
・学習はBatch Normalizationを適用	
単純にDeepにすると勾配が消失してしまうため精度が下がるが,ResNetによる学
習では単調に増加した(20, 32, 44, 56, 110層の場合).ILSVRC2015のテストセットで
は1,000クラスの画像識別で3.57%のエラー率である.また,ImageNetの物体検出
(200クラス)では62.1%,セマンティックセグメンテーションにおいてもトップの精度を
実現した.	
Links	
論文 http://arxiv.org/abs/1512.03385	
GitHub https://github.com/KaimingHe/deep-residual-networks	
参考資料
http://www.slideshare.net/HirokatsuKataoka/deep-residual-
learning-ilsvrc2015-winner
Hirokatsu Kataoka, Kiyoshi Hashimoto, Kenji Iwata, Yutaka Satoh, Nassir Navab, Slobodan Ilic, Yoshimitsu Aoki,
“Extended Co-occurrence HOG with Dense Trajectories for Fine-grained Activity Recognition”, in ACCV,
2014.	
【16】	
Keywords: Dense Trajectories, Extended CoHOG, Fine-grained	
新規性・差分	
手法	
結果	
概要	
詳細行動認識の高精度化のため,Extended CoHOG + Dense
Trajectoriesを組み合わせた.実験ではECoHOG, CoHOG,
HOG/HOF/MBHによる実験を行い,共起特徴量が詳細行動認
識に対して有効であることを確認した.	
詳細行動認識の問題に対して共起特徴量を適用するとより高
次な特徴表現を実現し,精度が向上することを確認した.MPII
cooking datasetにて(当時)最高性能を達成.	
Dense Trajecotriesに従い,dense optical flowを抽出,特徴抽出,ベクトルコーディ
ング(Bag-of-words).特徴抽出にはHOG/HOF/MBHを取得するが,共起特徴は特
徴空間が膨大なため,コードワード化の際に主成分分析により70次元に圧縮.70
次元は実験的に決定した.ベクトル量子化数はDTの論文に従い,各特徴毎に
4,000に設定.	
実験はINRIA surgery, MPII cooking datasetに
対して行い,もっとも高い性能を示した(右表
はINRIA surgery).MPII cookingに対しては
62.4%の認識率.実験では5x5の共起特徴抽
出のパッチサイズやPCAの圧縮次元は70次
元が良いことを確認した.	
Links	
論文
http://www.hirokatsukataoka.net/pdf/
accv14_kataoka_finegrainedactivityrecognition.pdf	
プロジェクト
Kishore K. Reddy, Mubarak Shah, “Recognizing 50 Human Action Categories of Web Videos”, in MVA, 2012.	
【17】	
Keywords: UCF50 dataset	
新規性・差分	
手法	
結果	
概要	
行動認識のデータセットであるUCF50の提案.行動認識の分野
において50クラスという多クラス分類問題やデータセットの大規
模化という概念を持ち込んだ.	
現在までの行動認識データセットの精度が飽和していることを
受け,(KTHやWeizmannなど)多クラス分類や大規模データセッ
トを提案.YouTubeから動画を集めることに対しても言及した.
このアイディアは他の行動認識データセット (e.g. UCF-101,
HMDB51,ActivityNet)にも継承された.	
	
UCF50には以下の行動が含まれる	
Baseball Pitch, Basketball Shooting, Bench Press,
Biking, Biking, Billiards Shot,Breaststroke, Clean and
Jerk, Diving, Drumming, Fencing, Golf Swing, Playing
Guitar, High Jump, Horse Race, Horse Riding, Hula
Hoop, Javelin Throw, Juggling Balls, Jump Rope,
Jumping Jack, Kayaking, Lunges, Military Parade,
Mixing Batter, Nun chucks, Playing Piano, Pizza
Tossing, Pole Vault, Pommel Horse, Pull Ups, Punch,
Push Ups, Rock Climbing Indoor, Rope Climbing,
Rowing, Salsa Spins, Skate Boarding, Skiing, Skijet,
Soccer Juggling, Swing, Playing Tabla, TaiChi, Tennis
Swing, Trampoline Jumping, Playing Violin, Volleyball
Spiking, Walking with a dog, and Yo Yo. 	
右表が結果例である.	
Links	
論文 http://crcv.ucf.edu/data/UCF50_files/MVAP_UCF50.pdf	
UCF50 dataset http://crcv.ucf.edu/data/UCF50.php	
UCF101 dataset http://crcv.ucf.edu/data/UCF101.php
Heng Wang, Cordelia Schmid, “Action Recognition with Improved Trajectories”, in ICCV, 2013.	
【18】	
Keywords: Improved Dense Trajectoires (IDT)	
新規性・差分	
手法	
結果	
概要	
行動認識の最先端手法であるDense Trajectoies (DT)を発展さ
せたImproved DT (IDT)を提案.DTと比較して安定したフローを
抽出し,ベクトルの表現能力を向上させたことで行動認識の
データセットに対してさらなる精度向上を実現した.	
従来のDTでは背景に余分なフローが発生してしまう問題が精
度向上のボトルネックになっていた.これに対して,SURF
+RANSACによりカメラモーションを推定し,背景のフロー除去
により行動認識の精度向上に貢献.下図の白色フローがノイ
ズとして除去された.	
DTからの拡張として,	
1.  SURF+RANSACによるフローノイズの低減	
2.  人物検出によるノイズ低減	
3.  Fisher Vectors (FV)の使用	
下図は安定化したフローによるMBH特徴の精細化と,人物検出によるノイズ除去
である.	
Hollywood2, HMDB51, Olympic
Sports, UCF50データセットに対し
て,2013年当時では最高性能を達
成(右表).Bag-of-features (BoF)の
ベクトルをFVに置き換えることも非
常に有効であることを示した.	
Links	
論文 https://hal.inria.fr/hal-00873267v2/document	
プロジェクト
https://lear.inrialpes.fr/people/wang/improved_trajectories	
参考資料 http://www.slideshare.net/HirokatsuKataoka/dt-tutorial
K. Simonyan, A. Zisserman, “Very Deep Convolutional Networks for Large-Scale Visual Recognition”, ICLR,
2015.	
【19】	
Keywords: VGGNet, Very Deep, Simonyan, Zisserman	
新規性・差分	
手法	
結果	
概要	
Deeper Netの先駆け的研究である,VGGNetの論文.11層から
19層までがサポートされているが,主に使用されるのは16層
ネットワーク,次いで19層のネットワークが用いられる.	
VGGNetと称され,高い非線形性による画像認識の高精度化
や中間層の特徴量を取り出し転移学習をしても高い性能を誇
る.	
VGGNetの特徴として,	
・主に16/19層の深いネットワーク構成	
・パッチサイズがすべて3x3で構成されていて,プーリングの前に複数回畳み込む
ことでより大きなパッチサイズでたたみ込むことと同義(3x3を2回たたみ込むと5x5
1回の畳み込みと同義,かつパラメータを削減 3x3x2 < 5x5)	
・畳み込みの回数を増やすことで高い非線形性を実現	
・5回のプーリングに対して全13回の畳み込み(VGG-16の場合)	
・3層の全結合層を保有	
学習時には	
・Multinomial logistic regression	
・Mini-batchやdropout, weight decay regularizationを採用	
・74 training epochs	
・入力画像サイズは224x224	
・NVIDIA Titan x 4を使用して2~3週間の学習時間が必要	
ILSVRC2014のLocalization taskにて1位(25.3% error),Classification taskにて2位
(7.3% error)を達成.左がILSVRC,右がPASCAL VOCやCaltechへの試行結果であ
る.	
Links	
論文 http://arxiv.org/pdf/1409.1556.pdf	
プロジェクト http://www.robots.ox.ac.uk/~vgg/research/very_deep/	
ILSVRC2014 oral https://www.youtube.com/watch?v=j1jIoHN3m0s
Sergey Ioffe, Christian Szegedy, “Batch Normalization: Accelerating Deep Network Training by Reducing
Internal Covariate Shift”, in ICML, 2015.	
【20】	
Keywords: Batch Normalization (BN), CNN Learning	
新規性・差分	
手法	
結果	
概要	
CNNの学習ではミニバッチ(Mini-batch)が用いられているが,
本稿ではMini-batchごとに画像の入力を正規化することで比較
的高い学習率でもアーキテクチャ自体を学習することに成功し
た.現在のdeeperモデル(GoogLeNetやResNetなど)に対しても
このBatch Normalizationが適用されている.	
各層ごとにMini-batchの画像の入力を正規化することで,収束
が早くなり,学習率を比較的高くしても問題ないと主張.さら
に,高速な学習を実現した.BNの使用により,状況によっては
dropoutすら必要でなくなり,ImageNetの識別タスクにおいては
top-5 errorが4.82%となった.	
特に多層のネットワークであると低層
に生じるCovariance Shiftの影響によ
り初期パラメータの設定が困難にな
る.この問題を解決するためにBatch
Normalizationが必要になる.	
右図はBatch Normalizationの手順.x
は活性化特徴量であり,mini-batchの
分散により正規化,γやβを学習.	
下図はMNISTを適用した際のテスト精度である.BNがあり/なしの場合には明らか
にBNを採用した方が収束の速さや精度の向上が見られた.	
ILSVRC2012の画像識別タスクでは,学習率高め,Dropoutなし,L2 weight
regularizationなし,などの条件で最高精度を達成.	
Links	
論文
http://jmlr.org/proceedings/papers/v37/
ioffe15.pdf	
参考
http://takatakamanbou.hatenablog.com/
entry/2015/12/20/233232
Yaniv Taigman, Ming Yang, Marc’Aurelio Ranzato, Lior Wolf, “DeepFace: Closing the Gap to Human-Level
Performance in Face Verification”, in CVPR, 2014.	
【21】	
Keywords: DeepFace, Face Identification	
新規性・差分	
手法	
結果	
概要	
人間とほぼ同等の精度で顔認識を実現した,顔認識のマイル
ストーン的な論文.顔検出・顔画像のアラインメント(正面顔へ
の変換)・顔特徴抽出・顔識別の手順で顔認識を実行.約4,000
クラスにて97.35%の精度を達成.	
現在までの顔認識の中でstate-of-the-artな精度を実現.人間
の水準にまで到達した.	
検出された顔画像に対して正面顔への変換を行う(左図).2次元や3次元情報を用
いて変換を行うが,2次元の変換ではLBP+SVRにより6点の顔特徴点から正面顔
へ変換する.3次元の変換では予め保有している3次元モデルの67点から変換行
列を推定し,正面顔へ射影する.	
DNN(左下図)は最初の層でこそ畳み込みとプーリングを実行するが,Locally-
connected layers (L4,5,6)では畳み込みではなく局所的につなげて特徴抽出するに
止まる.これは,顔画像の位置合わせを十分に行っているため,畳み込み層が必
要ないことによるものと思われる.その後,全結合層を経て出力層へつながる.	
Labeled Faces in the Wild (LFW) dataset
やYouTube Face (YTF) datasetを用い
た.LFWでは特に人間の精度も算出
(97.53%).DeepFaceの精度はそれに匹敵
する97.35%を実現した.低解像画像や複
雑環境が含まれるYTFにおいても91.4%と
高い精度を示した.	
Links	
論文
http://www.cv-foundation.org/openaccess/content_cvpr_2014/
papers/Taigman_DeepFace_Closing_the_2014_CVPR_paper.pdf	
プロジェクト 	
参考
https://research.preferred.jp/2014/03/face-verification-
deepface-and-pyramid-cnn/
Yang Cao, Changhu Wang, Zhiwei Li, Liqing Zhang, Lei Zhang, “Spatial-Bag-of-Features”, in CVPR, 2010.	
【22】	
Keywords: Bag-of-features	
新規性・差分	
手法	
結果	
概要	
BoFの改良版であるSpatial Pyramid Matching [Lazebnik+,
CVPR2006]では,空間的な階層構造を形成して特徴を取得し
ていたが,画像の変換に弱いという特徴があった.それを,ヒス
トグラム変換,並進や回転への不変性をもたせて改良を行っ
た.	
従来法としてはSpatial Pyramid Matching [Lazebnik+,
CVPR2006]があげられるが,スケールの変動や並進,回転に
は弱いという特徴があった.本稿ではその問題を改善した.	
主に下図に示す通りである.	
右図がOxford 5K datasetに対する結
果である.オリジナルのBoFをベース
(58.5%)として,すべての統合モデル
は64.4%にまで向上した.	
Links	
論文
http://ieeexplore.ieee.org/xpl/login.jsp?
tp=&arnumber=5540021&url=http%3A%2F%2Fieeexplore.ieee.org
%2Fiel5%2F5521876%2F5539770%2F05540021.pdf%3Farnumber
%3D5540021	
Slide http://sglab.kaist.ac.kr/~sungeui/IR/Slides/DG_Yu_1.pdf
Y. LeCun, L. Bottou, Y. Bengio, P. Haffner, “Gradient-Based Learning Applied to Document Recognition”, in
Proceedings of the IEEE, 1998	
【23】	
Keywords: Convolutional Neural Networks (CNN)	
新規性・差分	
手法	
結果	
概要	
Convotlutional Neural Networks (CNN)の提案論文.それまで
の流れとは対照的に画像の局所的な畳み込み=>プーリングを
繰り返し,全結合とすることで文字認識に対して精度が向上す
ることを明らかにした.MNISTデータセットに対して99%以上の
認識率を達成.	
入力,畳み込み,プーリング,全結合層を経て出力層へつなが
る一連の流れは,現在までのネットワーク構造に受け継がれる
こととなる.	
下記にネットワーク構造を示す.LeNet-5と称される.	
・入力層:32x32	
・畳み込み1:28x28x6 (特徴マップサイズx特徴マップサイズxカーネル数)	
・プーリング1:14x14x6	
・畳み込み2:10x10x16	
・プーリング2:5x5x16	
・全結合1:120	
・全結合2:84	
・出力:10 (0 - 9までの数字に対応)	
文字認識用のデータセットであるMNISTデータセットに対して実験を行った結果,
99.2%の精度で認識できることが判明した.なお,現在の最高性能は0.23% [
Ciresan et al. CVPR 2012]である.LeNet-5はCaffemodelやTensorFlowなどでも入
手可能である.	
	
Links	
論文 http://yann.lecun.com/exdb/publis/pdf/lecun-98.pdf	
プロジェクト http://yann.lecun.com/exdb/lenet/	
MNIST dataset http://yann.lecun.com/exdb/mnist/	
Caffe MNIST tutorial
http://caffe.berkeleyvision.org/gathered/examples/mnist.html
Myung Jin Choi, Joseph J. Lim, Antonio Torralba, Alan S. Willsky, “Exploiting Hierarchical Context on a Large
Database of Object Categories”, in CVPR, 2010.	
【24】	
Keywords: Context Model, Object Categorization	
新規性・差分	
手法	
結果	
概要	
物体認識を実行する際のコンテキスト(Context)について考え
る.物体のアピアランスのみならず,周辺のコンテキスト(位置
関係など)情報を追加することで精度が向上すると主張した.	
データセットとして,SUNデータセットに対しさらにラベル付けを
行い,コンテキストモデルの有効性を示した.	
下図はSUNデータセットに対して学習したコンテキストモデルである.階層構造で
形成され,トップダウンのモデルとなっている.例ではルートがsky,そのしたがfloor
やmoutain, fieldなどである.モデルは共起性の統計を捉えるPrior Modelと空間的
な物体間の位置関係を捉えるSpatial Priorからなる.情報としてGist特徴量g, 候補
領域W,そのスコアsから物体b, 正解検出位置c, そしてすべての物体位置Lを推定
することで最適なつながりを構成する問題である.	
右図はPASCAL VOC 07やSUN 09に対しての精度
である.青がBaselineのgist特徴,赤がコンテキスト
モデルである.	
Links	
論文 http://people.csail.mit.edu/lim/paper/cltw_cvpr10.pdf	
プロジェクト(データセット, コードあり)
http://people.csail.mit.edu/myungjin/HContext.html	
YouTube https://www.youtube.com/watch?v=2ONULTa44Rc
Antonio Torralba, Alexei A. Efros, “Unbiased Look at Dataset Bias”, in CVPR, 2011.	
【25】	
Keywords: Dataset Bias	
新規性・差分	
手法	
結果	
概要	
物体認識のタスクにおけるデータセットの解析を行った.その
結果,データセットごとにBias (偏り)があり,汎用性はないもの
の,データセットの特性に合わせて学習やテストをすることが重
要であると位置付けた.	
Caltech101, Tiny-images, LabelMe, 15 scenes, MSRC, Corel,
COI-100, Caltech256, UIUC, PASCAL 07, ImageNet, SUN09の
データセットを解析し,その偏りを詳細に解析した.データセット
を整理することで研究の方針を明らかにする試み.	
ある程度データを見ていると,どれがどのデータかわ
かるようになってくる(右図)?コンピュータがこのタスク
をやろうとすると39%の正答率しかない.(MITの学生は
約75%) より詳細に見てみると,各データセットの例え
ば車を取り上げてもデータセットにより色や形状,シー
ンなど異なる場面を扱っている.論文中の解析では各
ラベル(vehicle, pedestrianなど)ごとの識別・検出率や
Negativeクラスのバイアスについて行った.データセッ
トによってはクラスに検出しやすいものが含まれてい
ることが判明した.ここから,バイアスをSelection bias
(アノテーション時),Capture bias (撮影時),Category
or Label bias (カテゴリ・ラベル時),Negative set bias
(非正解画像)に分類した.	
下はcar detection, person detectionの結果,positive setとnegative setを変更して
実験した結果,大体のデータセットにて精度が落ちた.ImageNetはバイアスが少な
いことが示された.	
Links	
論文
http://people.csail.mit.edu/torralba/publications/
datasets_cvpr11.pdf	
プロジェクト http://people.csail.mit.edu/torralba/research/bias/
Andreas Veit, Tomas Matera, Lukas Neumann, Jiri Matas, Serge Belongie, “COCO-Text: Dataset and
Benchmark for Text Detection and Recognition in Natural Images”, in arXiv: 1601.07140, 2016.	
【26】	
Keywords: Text Detection, Dataset	
新規性・差分	
手法	
結果	
概要	
もともとは物体検出や画像キャプショニングのタスクが含まれ
ていたMS COCOデータセットに対して文字検出のタスクを追加
した.自然なシーン(in the wild)に対して文字領域の検出やそ
の文字の内容を当てる.	
MSCOCOに文字のアノテーションを付加したが,その数は
63,000の画像に対して173,000のアノテーションが含まれる.	
COCOデータセットでは,他のデータセットと比較すると	
・画像に対する詳細なラベル付けがされている	
・画像キャプショニングのアノテーションが十分にされている	
・画像に出現する文字の領域や種類(手書き・機械のプリント文字)のバリエーショ
ンが豊富	
という利点を持つ.これらの利点を最大限活かすためにもCOCOデータセットに対
して文字検出のタスクを増やした.	
	
アノテーションの内容としては,	
・bounding box ・読みやすい/読みにくい ・カテゴリ:機械プリント/手書き/その他
・英語か非英語 ・UTF8 string	
	
比較する手法(OCR algorithms)は以下の3種類を用いた.(が,製品であるので匿
名化して下記の表にA, B, Cにて表記)	
・Google ・TextSpotter ・VGG [Jaderberg+, IJCV2015]	
文字検出の正解は正解矩形とのIoUが50%以上の時とした.各アノテーションの項
目を当てる.結果としては下表に示す.	
Links	
論文
http://vision.cornell.edu/se3/wp-content/uploads/
2016/01/1601.07140v1.pdf	
プロジェクト http://vision.cornell.edu/se3/coco-text/
Liang Zheng, Liyue Shen, Lu Tian, Shengjin Wang, Jingdong Wang, Qi Tian, “Scalable Person Re-Identification:
A Benchmark”, in ICCV, 2015.	
【27】	
Keywords: Improved Dense Trajectoires (IDT)	
新規性・差分	
手法	
結果	
概要	
より現実問題を解決するため,新しいRe-IDのLarge-Scaleデー
タセットを提案している.	
Large-Scale問題に対処するため,教師なしBoWを提案し,複
数のデータセットで最先端の結果を示した.	
従来のRe-IDデータセットには2つ問題があった.	
・データの不足(Large-scaleのアルゴリズムができない)	
・検出窓が手動(現実のアプリを考えると自動にすべき)	
これらの問題は無視できない.	
また,近年のRe-IDはかなり強引な特徴マッチングで解決して
いる.そのため計算効率が悪いという問題がある.	
これらを解決するため,以下の2つに取り組む.	
・Dataset “Market-1501”の提案:camera6台,1501人,500K枚
の画像,人検出はDPM	
・最先端の画像検索システム:教師なしBoW	
	
基本的にはBoFのフレームワークにそっている.	
・特徴抽出:Color Name 記述子	
・コードブック:k-means法	
・量子化:Multiple Assignment(複数(10個)のVWsに投票する)	
・コードワードの重み付け:TF-IDF	
さらに,下記のように改良している.	
・弱幾何拘束:従来手法のAdjaxenxy Constrained Searchではなく,ストライプ状に
BoFを構築していくことで,計算コストを抑えつつ幾何変化に対応する	
・背景のノイズ除去:2次元のガウス関数でぼかす	
・Multiple Queries:1枚絵からだけでなく,複数のQuery画像を用いてRe-IDする	
・再ランキング学習:類似度をもとに再ランキング学習する	
Links	
論文 	
http://www.cv-foundation.org/openaccess/content_iccv_2015/
papers/Zheng_Scalable_Person_Re-
Identification_ICCV_2015_paper.pdf	
	
プロジェクト 	
http://www.liangzheng.org/Project/project_reid.html
Chi Su, Fan Yang, Shiliang Zhang, Qi Tian, Larry S. Davis, Wen Gao, “Multi-Task Learning With Low Rank
Attribute Embedding for Person Re-Identification”, in ICCV, 2015.	
【28】	
Keywords: Person Re-ID, Attribute, Maulti Task Learning	
新規性・差分	
手法	
結果	
概要	
・Multi-Task Learning with Low Rank Attribute Embedding
(MTL-LORAE)の提案.Low RankなAttribute(長い髪など)に関
連性の高いAttribute(女性など)の関連性をMulti Task Learning
を用いて推定し,Re-IDの精度向上を図っている.	
複数のデータセットに対して手法を適用した結果,精度向上し
た.	
・複数のAttributeを用いるだけでなく,その関連性も考慮してい
る.	
・事前に,Attribute毎の関連性を学習しておく.(下図左)	
・単純な特徴(RGB, HSV, YCrCb, Gaborなど)のそれぞれでAttributeを識別.(下図
中)	
・上記2つの積を用いてRe-IDする.(下図右)	
・ iLIDs-VIDでの結果 PRIDでの結果	
Links	
論文 :
http://www.cv-foundation.org/openaccess/content_iccv_2015/
papers/Su_Multi-Task_Learning_With_ICCV_2015_paper.pdf	
	
プロジェクト
Yang Shen, Weiyao Lin, Junchi Yan , Mingliang Xu , Jianxin Wu , and Jingdong Wang , “Person Re-identification
with Correspondence Structure Learning”, in ICCV, 2015.	
【29】	
Keywords: 	
手法	
結果	
概要	
・カメラ視点変化や人物の姿勢変化による空間的な位置ずれ
の対処法を考案している.	
・初めに,異なるカメラで撮影した同一人物をpatch-wiseでマッチングし,構
造の関係性をboostingベースのアプローチで学習する.さらに,カメラ間の
制約(カメラAよりもBのほうが少し下に映るなど)をglobal-basedマッチングを
導入することで位置ずれを解消している.	
・	
Links	
論文:
http://www.cv-foundation.org/openaccess/content_iccv_2015/
papers/Shen_Person_Re-Identification_With_ICCV_2015_paper.pdf
Xiang Li , Wei-Shi Zheng , Xiaojuan Wang , Tao Xiang , and Shaogang Gong, “Multi-scale Learning for Low-
resolution Person Re-identification ”, in ICCV, 2015.	
【30】	
Keywords: 	
手法	
結果	概要	
・低解像度におけるRe-IDに対して,joint multi-scale
discriminant cimponent analysis(JUDEA)を提案している.	
・学習画像に対して,それを低解像度に落とした画像を用意する
ことで低解像度におけるRe-IDを実現している.	
・	
Links	
論文:
http://www.cv-foundation.org/openaccess/content_iccv_2015/
papers/Li_Multi-Scale_Learning_for_ICCV_2015_paper.pdf
Seong Joon Oh, Rodrigo Benenson, Mario Fritz and Bernt Schiele , “Person Recognition in Personal Photo
Collections ”, in ICCV, 2015.	
【31】	
Keywords: 	
手法	
結果	
概要	
・日常的な写真から人物を認識する課題において,異なる身体
の手がかり・学習データの影響・システムの一般的なエラーを,
CNN特徴を用いて詳細に分析する.そして,従来のベンチマー
クや手法の限界について検証する.	
・人物認識の手がかりとして,右図のようにScene(s),
Body(b), Upper body(u), Head(h), Face(f)をアノテーション
し,CNN特徴で認識する.	
・それぞれのCueに対してlinear SVMで識別する.データセットはPIPA datasetを用
いる.結論としては以下の知見が得られた.	
1.顔領域は,不明瞭であっても,人物認識のための有効な特徴となる	
2.異なる手がかりは互いに相補的である	
3.大規模なデータベースが学習された特徴は,時間や外観変化に対して頑健	
4.単純に個人の学習画像を増やせば認識率が上がるというものではない	
Links	
論文 :
http://www.cv-foundation.org/openaccess/content_iccv_2015/
papers/Oh_Person_Recognition_in_ICCV_2015_paper.pdf	
	
プロジェクト :
https://www.mpi-inf.mpg.de/departments/computer-vision-and-
multimodal-computing/research/people-detection-pose-
estimation-and-tracking/person-recognition-in-personal-photo-
collections/	
	
Youtube:https://www.youtube.com/watch?v=F4Jh0f3xD0g
Wanli Ouyang, Hongyang Li, Xingyu Zeng, Xiaogang Wang , “Learning Deep Representation with Large-scale
Attributes ”, in ICCV, 2015.	
【32】	
Keywords: 	
手法	
結果	
概要	
・物体の回転・視点・パーツの位置などのannotationがされてい
るデータセットの提案.ImageNetを基に作成した.そして,一般
亭な物体検出のフレームワークでどの程度検出可能であるか
を実験により確認している.さらに,階層的なクラスタリングを
導入することにより,attributeの認識精度を向上させている.	
・データセット構築では,
rotation・vierpoint・common・
class-specific・object parts
location・object parts
existingの要素についてアノ
テーションしている.	
	
・階層的クラスタリングでは,
その要素それぞれについて
attributeを推定し,詳細なク
ラスタリングを実現している.	
・ILSVRC 2014やPASCAL VOCで実験した結
果,FasrRCNNやGoogleNetよりも高精度で識
別が可能となった.	
上はILSVRK2014,下はPASCAL VOCの実
験結果	
Links	
論文:
http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/
Ouyang_Learning_Deep_Representation_ICCV_2015_paper.pdf	
	
プロジェクト :http://www.ee.cuhk.edu.hk/~wlouyang/projects/ImageNetAttribute/iccv15.html
Yonglong Tian, Ping Luo, Xiaogang Wang and Xiaoou Tang, “Deep Learning Strong Parts for Pedestrian
Detection ”, in ICCV, 2015.	
【33】	
Keywords: 	
手法	
結果	
概要	
・人間の姿勢変化に頑健な人検出手法DeepPartsの提案.パー
ツ毎に学習するが,学習する際はweakly labbeled dataで十分な
性能を発揮している.さらにオクルージョン問題にも従来手法より
も高精能となっている.	
・人物のパーツ学習において,全身を1として,重み学習する.	
人物のパーツは大雑把なパッチでラベル付されており,1つの画
像からパーツ毎に分割することで,weakly labbeled dataを生成
している.	
さらに,周辺領域を探索することで位置ずれ問題も解消してい
る.	
Links	
論文 :
http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/
Tian_Deep_Learning_Strong_ICCV_2015_paper.pdf	
	
ポスター:	
http://personal.ie.cuhk.edu.hk/~ty014/YonglongTian/poster_iccv15.pdf
D Ciresan, U Meier, J Schmidhuber, “Multi-column Deep Neural Networks for Image Classification”, in CVPR,
2012.	
【34】	
Keywords: Classification,DNN,Multi-column	
新規性・差分	
手法	
結果	
概要	
・手書き文字や標識の認識は,伝統的なCV/MRの手法では人
間の精度に及ばない.deepなだけでなく並列化することでwide
なネットワークとした,Multu-column Deep Neural Networks 
(MCDNN)を提案	
・MNISTやCIFAR10など,広く認知されているデータセットを用
いて人間と同程度の精度に至ったのはこの手法が初めてであ
ると主張している	
・画像はブロックごとに前処理され,それぞれ並
列化されたDNNに入る.最終的な分類はそれぞ
れのDNNの予測の平均を持って行われる.実
験では35のDNNを並列化している.	
・MNIST,CIFAR10,標識,中国語文字などのデータセッ
トを用いた実験で,下表のように,当時の最先端手
法と比較して高精度を達成	
Links	
論文 http://people.idsia.ch/~juergen/cvpr2012.pdf	
	
・DNNのアーキテクチャは,入力以下conv-
pooling-conv-pooling-conv-pooling	
の後,fully connectedを3つの形を基本としてい
る
Matthieu Courbariaux, Yoshua Bengio, “BinaryNet: Training Deep Neural Networks with Weights and
Activations Constrained to +1 or -1”, in arXiv: 1602.02830v1, 2016.	
【35】	
Keywords: BinaryNet, CNN	
新規性・差分	
手法	
結果	
概要	
CNNの重みや活性化特徴の値が二値のニューラルネットであ
るBinaryNetの提案論文.MNIST,CIFAR-10,SVHNデータセッ
トにおいて実験を行ったところ,最先端に近い精度が出たと主
張.著者のオリジナル実装のみならず,Chainer実装も公開さ
れている.	
BinaryNetは精度をあまり損なうことなく,高速に深層学習の学
習やテストを実行可能である.	
BinaryNetは	
・各重みや活性化特徴を二値にすることで,XNORの演算を可能にし高速化	
・多階層のニューラルネットに対しBinaryNetの学習を行った	
・活性化関数として,Sign Functionを利用し,ReLUよりも単純にSign(x) (xが正の場
合には+1, 負の場合には-1)とする.	
・BinaryNetは(出力を0にする)Dropoutのような働きをしているともみなせる	
・ミニバッチに対してBatch Normalizationをかける	
・学習にはADAM最適化を施す.α=0.001, β1=0.9, β2=0.999, ε=10^-8	
	
MNISTデータセットでは通常の7倍の速度で識別を実行した.下の表はMNIST(左)
とCIFAR-10における最先端手法との比較である.確認してみるとMNISTはDeep
L2-SVM (0.87%)に対してBinaryNet 0.96%のエラー率,CIFAR-10はGated Pooling
(7.62%)のエラー率に対してBinaryNet 7.62%のエラー率である.	
Links	
論文 http://arxiv.org/pdf/1602.02830v1.pdf	
コード(Lasagne)
https://github.com/MatthieuCourbariaux/BinaryNet	
コード(Chainer) https://github.com/hillbig/binary_net
Aude Oliva, Antonio Torralba, “Modeling the Shape of the Scene: A Holistic Representation of the Spatial
Envelope”, in IJCV, 2001.	
【36】	
Keywords: GIST feature, Scene Understanding	
新規性・差分	
手法	
結果	
概要	
シーン認識に用いるGIST特徴量の提案.画像全体を抽象化し
て捉える特徴量を提案した.	
シーン認識において高精度な特徴量を提案した.GIST特徴量
はBag-of-features (BoF)のベクトルと同等の精度を持つくらい
と言われている.非常に高速かつ高精度な画像に対してグ
ローバルな特徴量である.	
画像全体をブロックに区切り,各ブロックから勾配を抽出してヒストグラム化する.
これをRGBの各チャネルで行う.ブロックサイズはx,yごとに4,勾配の量子化は20
なので,次元数は4x4x20x3 = 960 (dims)となる.	
データセットにはtall buildings, inside city, street,
highway, coast, open country, mountain, forest
の8シーンが含まれる.GIST特徴量では83.7%の
精度を実現した.	
Links	
論文 http://cvcl.mit.edu/Papers/IJCV01-Oliva-Torralba.pdf	
プロジェクト
http://people.csail.mit.edu/torralba/code/spatialenvelope/	
コード https://github.com/yuichiroTCY/lear-gist-python	
シーンを概略化した例
Elliot J. Crowley, Omkar M. Parkhi, Andrew Zisserman, “Face Painting: querying art with photos”, in BMVC,
2015.	
【37】	
Keywords: Painting Retrieval, Face Recognition	
新規性・差分	
手法	
結果	
概要	
顔画像においてクエリ画像から類似する絵画(自画像?)を検
索する問題.油絵,インク,watercolorなどのペイントやスタイル
に関しても考慮する.	
(1) 表現方法としてFisher VectorsやConvolutional Neural
Networks (CNN)を比較	
(2) 新規にデータセットを提案	
(3) 画像検索におけるreverse problemを解決	
右図が提案手法の流れである.あらかじ
め特徴量を計算し,クエリと比較することで
絵画検索システムを構築.	
CNNの表現方法としては
VGG Face Descriptor [Parkhi+,
BMVC2015]を用いる.VGG Face
DescriptorはVGGNet-16をベースにして顔
画像を学習させたネットワークである.	
あらかじめ計算した特徴との距離を比較す
るが,(i) L2距離 (ii) 識別性に優れた次元
削減 (iii) 学習による識別器を考慮する.	
データの構成や結果については右の
表に示す通りである.顔の検出につ
いてはDPMを適用.顔の表現には
Fisher VectorかCNNの全結合層を用
いる.次元圧縮に関してはPCAで128
次元に削減,識別器はSVMを用い
る.CNN L2 distanceがもっとも精度が
高い.	
Links	
論文 http://www.bmva.org/bmvc/2015/papers/paper065/paper065.pdf	
概要 http://www.bmva.org/bmvc/2015/papers/paper065/abstract065.pdf	
プロジェクト http://www.robots.ox.ac.uk/~vgg/research/face_paint/	
デモ http://zeus.robots.ox.ac.uk/facepainting/index?error=face
Abhilash Srihantha, Juergen Gall, “Human Pose as Context for Object Detection”, in BMVC, 2015.	
【38】	
Keywords: Pose, Context, Object Detection	 手法	
結果	
概要	
人物姿勢を手掛かりとして物体を検出する問題.人物の姿勢を
操作する物体自体の手掛りとみなして物体検出を実行する.	
(a) 入力には画像のみならず,人物の姿勢も含まれる	
(b) 物体のキーポイントからアピアランス特徴を取得する	
(c) 人物のキーポイントからアピアランス特徴を取得する	
(d) 人物姿勢と物体の仮説を統合する	
(e) Pictorial Structured Model に従い,物体位置のキーポイントを推定	
(f) bounding boxを回帰により推定	
	
アピアランス特徴にはHOG特徴量を,RegressorにはRandom Forestsを用いる.人
物姿勢と物体の特徴は下記式により統合する.	
実験はETHZ-Activity, CAD-120, MPII cookingに対して行った.最初の2つのデー
タセットに関してはKinectにより,MPIIに関してはPictorial Structureにより姿勢を推
定.精度はAUCで算出し,MPIIでは0.41, ETHZ Activityでは0.51, CAD-120では
0.32であった.	
Links	
論文 http://www.bmva.org/bmvc/2015/papers/paper101/paper101.pdf	
プロジェクト
https://ps.is.tuebingen.mpg.de/publications/srik-bmvc-2015
Seyoung Park and Song-Chun Zhu , “Attributed Grammars for Joint Estimation of Human Attributes, Part and
Pose ”, in ICCV, 2015.	
【39】	
Keywords: 	
新規性・差分	
手法	
結果	
概要	
・パーツ毎にattributeを推定し,その統計量から頑健な
attribute推定をしている.姿勢・attributeともにCNNベースで学
習し,モデルを構築している.Pople Datasetにおいて80.20[%]
の精度でattribute推定を可能としている.	
・パーツからattibuteを推定している	
・階層構造やand-or graphでattribute推定をしている	
・Part Relation modelとPart Appearance model
を定義し,CNNベースで姿勢推定する.	
そして,各パーツからAttribute relation model,
attribute appearance modelを推定している.	
・	
Links	
論文 :
http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/
Park_Attributed_Grammars_for_ICCV_2015_paper.pdf	
	
プロジェクト :http://seypark.github.io/pages/jointattr.html
Georgia Gkioxari, Ross Girshick and Jitendra Malik , “Actions and Attributes from Wholes and Parts ”, in
ICCV, 2015.	
【40】	
Keywords: 	
新規性・差分	
手法	
結果	
概要	
姿勢推定からの行動と属性を認識する課題.姿勢推定はDeep
Learning版のposeletを提案している.実験ではPASCAL VOC
2012において行動認識し,82.6[%]の精度を出している.また
People datasetに対して属性認識した結果,89.5[%]の精度となっ
ている.	
・従来手法では一枚絵から行動・属性推定していたが,そこに
姿勢推定を付加することで精度向上を図っている.その姿勢推
定は,poseletのDeep Learning版を提案している.	
1.R-CNNで人物検出	
2.Deep版 poselet(DeepParts)で姿勢推定	
3.姿勢毎にCNN特徴を抽出し,行動・属性を推定	
左図が行動・属性の認識結果の一例	
	
・行動認識:82.6[%](PASCAL VOC 2012) 	
Simonyan&ZissermanのVGGNet 16&19Layerには及ばなかったものの,劣らない
性能を出している	
	
・属性認識:89.5[%] (People Dataset)	
CVPR2014で提案されたPANDAよりも10[%]近い精度向上	
Links	
論文 :
http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/
Gkioxari_Actions_and_Attributes_ICCV_2015_paper.pdf
Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, “Delving Deep into Rectifiers: Surpassing Human-Level
Performance on ImageNet Classification”, in ICCV, 2015.	
【41】	
Keywords: Parametric ReLU	
新規性・差分	
手法	
結果	
概要	
Parametric Rectified Linear Unit (PReLU)の提案論文.活性化
関数であるReLUをさらに一般化し,マイナスの方向にも勾配を
持たせる.	
計算の複雑性は変えず,精度を大幅に向上させる仕組みを考
案したこと.	
Deeperモデルに対しても収束するモデルを考案した.	
活性化関数を式(1)のように定義した.a_iはnegative方向への勾配を調整する働き
を持つ.a_iの値が低い時,Leaky ReLU [Maas+, ICML2013]と同等になる.PReLU
では,学習に応じてa_iの値をupdateすることで収束を適応的にする.これはchain
ruleに従い,実際の勾配更新は式(4)のmomentumによる.初期値としてはa_i=0.25
を採用.	
左表はLReLUとPReLUの比較である.LReLU(a_i=0.25)の時よりもPReLUにより係
数を適応的に更新した方が精度が高くなることが確認できる.	
ILSVRCのテストセットに対して4.94%のtop-5 error rateを達成(右表).その結果,人
間(5.1%)よりも高い精度で識別することができた.なお,提案手法は3つのモデル
(19層, 22層, 22層(カーネル多))を組み合わせてアーキテクチャを構成した.	
Links	
論文
http://research.microsoft.com/en-us/um/people/kahe/
publications/iccv15imgnet.pdf	
著者ページ
http://research.microsoft.com/en-us/um/people/kahe/ 	
解説記事 http://qiita.com/shima_x/items/8a2f001621dfcbdac028
Alessandro Giusti, et al., “Machine Learning Approach to Visual Perception of Forest Trails for Mobile Robots”,
in ICRA, 2016.	
【42】	
Keywords: Drone, UAV, DNN, Forest Trails	 手法	
結果	
概要	
森の中での道案内をドローンが行うという論文.進行方向に対
して3方向(直進,右左折)をナビゲートする.結果的に人間の案
内能力を超えたということが判明.IROS Workshop, AAAI16
video competition, ICRA16採択.下図が問題設定を示す.	
ドローンにマウントされたカメラから進行方向に対して前方の映像を取得する.順
路を3方向(直進,右左折)で教示することで,森からの抜け道まで案内可能.	
学習時には3台のヘッドマウントカメラ (視野は30度ごと)から教示画像を取得する.
3方向のうちどの方向が歩けるかかつ正しい道であるかの教師ラベルを与えてお
く.	
DNNは10層の構造である(論文中図5参照).入力は101x101 [pixels]のRGB画像
(101x101x3)で全結合層は1層で200ニューロン,出力層は3ニューロン(3方向が対
応)である.学習には17,119枚の画像を使用,90epoch,学習率の初期値は0.005か
らスタートして1epochごとに x0.95.	
下図は精度である.比較手法はIttiらのSaliencyを特徴としてSVM識別(Saliency),
[12]の手法,2人の人間と比較した.道が見えない場合や開けている環境で道が広
い場合に失敗しやすい傾向にあった.今後精度を向上させるにはドローンカメラの
解像度をあげることがあげられる.	
Links	
論文
http://ieeexplore.ieee.org/stamp/stamp.jsp?
tp=&arnumber=7358076	
プロジェクト(データセットあり)
http://people.idsia.ch/~giusti/forest/web/	
YouTube https://www.youtube.com/watch?v=umRdt3zGgpU
Subhashini Venugopalan, Marcus Rohrbach, Jeff Donahue and Raymond Mooney, “Sequence to Sequence –
Video to Text ”, in ICCV, 2015.	
【43】	
Keywords: CNN, VGG, LSTM, RNN, 画像生成分, optical flow,動画生成分	
手法	
結果	概要	
連続する動画を文章にするVideo to Textを提案している.オプ
ティカルフロー画像とRGB画像からCNN特徴を抽出している.そ
して,RNNの一種であるLSTMで時系列表現し,word化している.	
画像とwordtのペアを事前に学習して
いる.	
オプティカルフロー画像とRGB画像か
らVGGNetで特徴を抽出している.そし
て,RNNの一種であるLSTMで時系列
表現し,word化している.	
MPII Movie DescriptionとMontreal
Video Annotation Datasetで実験し
ている.結果は右の表の通り.	
Links	
論文:
http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/
Venugopalan_Sequence_to_Sequence_ICCV_2015_paper.pdf	
	
コード: https://github.com/jazzsaxmafia/video_to_sequence
Tian Lan, Yuke Zhu, Amir Roshan Zamir and Silvio Savarese, “Action Recognition by Hierarchical Mid-level
Action Elements ”, in ICCV, 2015.	
【44】	
Keywords: 	
新規性・差分	
手法	
結果	
概要	
fine-grainedよりも更に細かいfiner-grainedとして,mid-level
action elements(MAEs)を提案している.MAEsは背景差分から
行動に関連する部分をセグメントし,複数の時空間解像度で行
動を表現する.	
従来の行動認識では,複数の動作が含まれていた.それをよ
り詳細に捉えるfiner-grainedを課題として提案している.それを
複数の視点から解決している.例えば,”take food from
fridge”では,詳細に書くと	
・冷蔵庫の開け閉め	
・物体	
・トマトを拭く	
となる.	
【Action Proposals: Hierarchical Spatiotemporal Segments 】	
初めに,unsupervisedに時空間のセグメンテーションをする.ビデオから行動や身
体部位,物体などを自動で学習する.	
具体的には2010年に提案された”Category independent object proposals”を用い
ており,セグメンテーション候補を複数出して結合することで,頑健なセグメントを可
能にしている.それを時系列にプーリングし,階層的に分割している	
Links	
論文 :
http://www.cv-
foundation.org/
openaccess/
content_iccv_2015/
papers/
Lan_Action_Recognition_
UCF-Sportsで83.6[%] (iDT: 79.2[%]),Hollywood2で66.3[%] (iDT: 63.0[%])
Stefan Walk, Nikodem Majer, Konrad Schindler, Bernt Schiele, “New Features and Insights for Pedestrian
Detection”, in CVPR, 2010.	
【45】	
Keywords: Pedestrian Detection, Self-Similarity Feature	
新規性・差分	
手法	
結果	
概要	
歩行者検出のため,Color Self-Similarity Feature (CSS; 色の
自己類似性特徴)を提案し,HOGやLBP, HOFとの連結ベクトル
を生成,各ベンチマークでの精度向上に寄与した.	
HOGなどの勾配特徴量ではなく,新たに色の類似性から特徴
を記述し,より高次な特徴を取得することを提案した.各ベンチ
マークにおいて精度がさらに向上することを明らかにした.	
提案のColor Self-Similarity (CSS)について説明する.CSSではLow-level特徴から
さらに踏み込んで色の類似性を考慮し,統計値を用いることでSecond- order特徴
の記述に成功している.	
人物の場合には下図のように衣服や肌による色の恒常性が見られるため,類似
する部分から特徴を記述することで,クラス内分散を抑えることができるという戦略
をとる.CSSは領域ごとの類似度をマップ化し,ウインドウ内のSSをコーディングし
て特徴とする.実際に使用する場合にはHOGやLBP, HOFとの連結特徴を生成す
ることでそれら特徴の補助情報とする.	
識別器にはSVMやMLPBoostを用いた.著者らによるとAdaBoostではそれほどの
性能は出ていないという.下図がINRIA, TUD-Brusselsにおける精度であり,概ね
良好な性能を示した.CSSのみではなく,連結ベクトルを用いることがポイント.	
Links	
論文
https://www1.ethz.ch/igp/photogrammetry/publications/
pdf_folder/walk10cvpr.pdf	
研究グループ
https://www.mpi-inf.mpg.de/departments/computer-vision-and-
multimodal-computing/ 	
参考
http://www.vision.cs.chubu.ac.jp/CV-R/jpdf/StefanCVPR2010.pdf
Bo Xiong, Gunhee Kim and Leonid Sigal , “Storyline Representation of Egocentric Videos with an Application
to Story-based Search ”, in ICCV, 2015.	
【46】	
Keywords: Disney, イベント認識, First Person Vision(FPV), summarization	
手法	
結果	
概要	
一人称視点動画を用いて,1日のstory lineを生成する課題.動
画から,出てくる人(Actor)・場所(Location)・イベント(Event)・物
体(Object)を認識し,タイムラインを生成する.1日を振り返る
際,あの時だれといたっけ?といった質問をすることで,それに
関連する動画をAnd-Or Graphを用いて抽出する.	
【story line生成】	
・Actor検出:Fraunhoferの顔検出	
・位置合わせ(Localization):SIFT+improved Fisher Vector→SVM	
・イベント認識:dense SIFT+BoW & dense optical flow → SVM	
・物体認識:GIST feature+GMM → SVM	
【イベント検索】	
・And-Or Graphを用いて,設問に対して上記の要素を含む部分を抽出
する.	
Links	
論文 :	
http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/
Xiong_Storyline_Representation_of_ICCV_2015_paper.pdf	
	
動画:http://cs.brown.edu/~ls/Publications/iccv2015_egostory.mp4
Srikrishna Karanam, Yang Li, Richard J. Radke, “Person Re-Identification with Discriminatively Trained
Viewpoint Invariant Dictionaries”, in ICCV, 2015.	
【47】	
Keywords: Person Re-ID, SVD, iLIDS-VID, PRID, CAVIAR4REID	
手法	
結果	
概要	
スパースな特徴表現でカメラ間変化に頑健なRe-IDをしてい
る.2つのキーチャレンジがある.	
1.視点のばらつき:カメラ間で関連する外観変化を学習	
2.班別スパースな特徴表現にすることで,ユークリッド距離で 	
班別可能	
これらを改善した結果,最先端の精度となった.	
辞書学習:従来の辞書学習と同様だが,viewpointとdiscriminativeに
対して適宜更新し,最適化している.	
	
特徴抽出(実験で使用):YCrCb, HSV, RGB, 12 Schmid, 6 Gabor	
・	
Links	
論文 :
http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/
Karanam_Person_Re-Identification_With_ICCV_2015_paper.pdf	
	
著者(コードあり):http://homepages.rpi.edu/~karans3/
Shuiwang Ji, Wei Xu, Ming Yang, “3D Convolutional Neural Networks for Human Action Recognition”,
PAMI2013, VOL. 35, NO. 1, pp.221-231.	
【48】	
Keywords: 3DCNN 	
新規性・差分	
手法	
結果	
概要	 行動認識のための3次元 CNNモデルの提案.また3次元CNNの性能向上のための,モデル正則との組み合わせ
方法を提案している.実験結果では公開データセットでの優れた性能を実証した.TRECVIDデータのベースライン
の手法の認識性能を上回った.	
3次元CNNの提案	
3次元の畳み込みを行うことにより時系列および,外観特
徴をそれぞれ抽出する.提案したアーキテクチャでは,隣
接する入力フレームからの情報の複数のチャネルを生成
し,各チャネルごとに畳み込みとサブサンプリングを行う.
すべてのチャネルからの情報を組み合わせた結果を最終
的な特徴表現とする.	
KTHでの行動認識精度	
Links	
論文ページ:	
http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6165309	
著者ページ:	
http://www.eecs.wsu.edu/~sji/	
	
(上)行動認識のための3D CNN
アーキテクチャ	
[ 構成 ]1層 : ハードワイヤード層,
3層 : 畳み込み層, 2層 : サブサン
プリング層, 1層 : 最終的な結合層	
連続フレームから複数の特徴の抽
出 :	動き特徴を抽出するために,
同一の3次元カーネルは入力映像
内の3次元キューブへ重複される.	
色分けはそれぞれの重み共有を
示しているが,出力結果ではその
重みを共有しない.
Keywords : Neural Network, Reducing the Dimensionality, Restricted Boltzmann machine  	
Auto	encoderは中心層のユニット数が少ないコード層である.この中間層の出
力を用いることでデータの次元圧縮が可能である.Auto	encoderの初期値パラ
メータは確率的勾配降下法を用いて最適化されるが,最適解から遠い場合に
正常に機能しないという問題がある.本論文では多層NNにおいても有効な初
期値パラメータの導出方法について提案している.	
	
制限付きボルツマンマシン(Restricted Boltzmann machine)(RBM)を用いた
事前学習(pre-training)を導入した,初期値パラメータの最適化手法を提案
している.実験より従来の次元削減手法であるPCAやLSAを用いて次元圧
縮したデータでの分類性能を上回った.	
【単層の場合】まずRBMといわれる2層NNを用いて画像を
モデル化する.RBMは隠れ層と観測層で構成されている.
RBMの隠れ層hと観測層vのEは次式で表される.	
	
【49】	
論文ページ:	
https://www.cs.toronto.edu/~hinton/science.pdf	
解説スライド(Slide Share)	
http://www.slideshare.net/nagayoshi3/ss-44157801	
新規性・差分	
手法	概要	
Links	
G. E. Hinton* and R. R. Salakhutdinov, “Reducing the Dimensionality of Data with Neural Networks”, 
SCIENCE, Vol.313, pp.504-507, 2006.	
パラメータを学習するために訓練画像を用いる.式(2), を
用いて隠れ層の変数hを求め, 式(3)に代入し観測信号を
求める.	
パラメータを学習するために訓練画像を用いる.式(2), を
用いて隠れ層の変数hを求め, 式(3)に代入し観測信号を
求める.
Top	:	元画像	
2nd	:	auto	encoderによる再構築()	
3nd	:		6個のコンポーネントを使用したlogis9c	PCAによる再構築	
4th			:	18個のコンポーネントを使用したlogis9c	PCAによる再構築	
5th			:	18個のコンポーネントを使用した標準のPCAによる再構築	
6th	:	18コンポーネントを使用して標準のPCAによる再構築	
• 各手法における平均二乗誤差は1.44,	7.64,	2.45,	5.90	
	aout	encoderの再構築による復元が最も精度が高い	
	
Top	:	元画像	
2nd	:	30次元のオートエンコーダによる再構築	
3nd	:	30次元のlogis9c	PCAによる再構築	
4th	:	30次元の標準のPCAによる再構築	
• 各手法における平均誤差は3.00,	8.01,	13.87	
	auto	encoderの再構築による復元が最も精度が高い	
	
Top	:	元画像	
2nd	:	30次元のauto encoder(625-2000-1000-500-3による再構成	
3nd	:	30次元のPCAによる再構成平均二乗誤差は126,	135	
	
結果1
(A)	MINSTによる手書き数字のデータセットを利用した文字認識	
Black	:	10次元のauto	encoderの出力による認識精度	
Red	:	50次元のPCAに基づく周知の文書検索方法である潜在意 味解析(LSA)に
よる認識精度	
Blue		:	10次元によるLSAによる認識精度	
(	B	)	LSAによる文書分類	
(	C	)	Auto	encoder(2000-	500-250-125-2)による文書分類	
• いずれもAuto	encoderを用いることで精度が向上	
	
結果 3,4	
• ラベル付けされた数字を分離する実験	
• 各色,形は数字を表す	
LeN	:	PCAによって再構築した画像による分離	
Right	:	Auto	encoderによって再構築した画像による分離	
• Auto	encoderの方が精度よく分離できている	
	
結果 2
Kota Yamaguchi, M. Hadi Kiapour, Luis E. Ortiz, Tamara L. Berg, “Retrieving Similar Styles to Parse Clothing”, in PAMI,	
pp. 1028– 1040, 2014.	
	
【50】	
Keywords:Clothing Retrieval, Attribute Recognition, Clothing Parsing, Semantic Segmentation, Pose Estimation	
	
新規性・差分	
手法	
結果	
概要	 体型の変化や重ね着に適応する服装解析として,検索に基づく服装解析手法を提案	
	
体型の変化や重ね着に適応する服装解析として,検索に基づく服装解析手法を提案	
	
Links	
Table 1. 提案手法で使用している局所特徴	
Input : probe画像, Output : fashion itemの領域とラベル	
1. probe画像との類似画像を検索,タグを予測	
2. 画素単位で3種類の信頼値を算出	
3. 最も高い信頼値を採用し,その信頼値が出力したfashion	
  itemのラベルを採用	
4. 評価関数より,領域の境界部分を反復平滑
Hossein Mousavi, Sadegh Mohammadi, Alessandro Perina, Ryad Chellali, Vittorio Murino, “Analyzing Tracklets
for the Detection of Abnormal Crowd Behavior”, in WACV, 2015.	
【51】	
Keywords: Histograms of Oriented Tracklets (HOT), Anomaly Detection	
新規性・差分	
手法	
結果	
概要	
時系列の特徴量であるHistograms of Oriented Tracklets
(HOT)を提案し,監視カメラからの異常検出に適用.モーション
パターンを織り込んだベクトルを記述し,生成的アプローチとし
てLatent Dirichlet Allocation (LDA)を,識別的アプローチとして
SVMを適用.	
(i) 異常検出に対して良好な性能を実現	
(ii) データセットに対して最先端	
(iii) optical flowやdense trajectories, social force modelよりも
高性能	
Trackletsを計算後,追跡位置に対するオリエンテーションやその強度を計算して
累積.TrackletsはSIFTによるキーポイントマッチングとKLTによる追跡を行う.	
学習データが正常しか集まらない場合にはLatent Dirichlet Allocation (LDA)にて
学習(生成的アプローチ),正常と異常が集まる場合にはSVMにて学習(識別的アプ
ローチ).	
右表が結果である.異常のみのデー
タではLDAを,正常も含むデータでは
SVMにより識別する.LDAを使用する
際のトピック数は16,勾配は8方向,11
フレームのウインドウ幅,に設定,	
Links	
論文
https://www.researchgate.net/profile/Hossein_Mousavi6/
publication/
278673112_Analyzing_Tracklets_for_the_Detection_of_Abnormal_Cro
wd_Behavior/links/558295f708ae6cf036c18d0f.pdf	
著者 http://profs.sci.univr.it/~swan/
ご質問・コメント等ありましたら,cvpaper.challenge@gmail.com / Twitter@CVPaperChallengまでお願いします.

【2016.02】cvpaper.challenge2016

  • 1.
  • 2.
    Haoyu Ren, Ze-NianLi, “Object Detection Using Generalization and Efficiency Balanced Co-occurrence Features”, in ICCV, 2015. 【1】 Keywords: Co-occurrence Features, Generalization and Efficiency Balanced (GEB) framework for Boosting 新規性・差分 手法 結果 概要 Haar-lke特徴,Local Binary Pattern (LBP), HOGに関する共起 特徴を用いるが,効果的な弱識別器の学習として Generalization and Efficiency Balanced (GEB)フレームワークを 提案し,ブースティングに活用する. 共起特徴量を用いたブースティングのための弱識別器学習法 を提案することで,高精度かつ高効率な物体検出方法を提供 する.共起特徴量は背景ノイズや姿勢,照明変動などに影響を 受けるが,それらを解決. CoHaar, CoLBP, CoHOGを構築. Co-Haar: Haar特徴の重みは全体で0になるように調整.x,y方向に勾配も量子化し て共起させる. CoLBP: 右図を参考にして,クラスタを作成する.2つのクラスタの組み合わせによ り共起特徴を構成. CoHOGはWatanabe[Watanabe+, 2009]論文を参考. 基本的にはReal AdaBoostをベースにしているが,共起特徴に特化するためにオフ セットの位置を考慮した重み付けや効率化のパラメータを設けている. 下図はINRIA person datasetでの実験結果である.共起 特徴統合の精度はmiss rateが15%であった.GEB +AllCoFeatureの結果はCaltech pedestrian datasetにてエ ラー率が24%であった. Links 論文 http://www.cv-foundation.org/openaccess/content_iccv_2015/ papers/Ren_Object_Detection_Using_ICCV_2015_paper.pdf 著者 http://www.sfu.ca/~hra15/
  • 3.
    Pulkit Agrawal, JoaoCarreira, Jitendra Malik, “Learning to See by Moving”, in ICCV, 2015. 【2】 Keywords: Perception, 手法 結果 概要 現在の特徴抽出はニューラルネットに着目していると言える.こ こで,動きの特徴を効果的に捉え,物体認識やシーン認識, visual odometryやマッチングなどに使うための特徴について考 察する.本研究では,単純なエゴモーションから学習される モーションを使用してビジョンの各タスクに応用する. 特徴学習には下図のようなニューラルネットのアーキテクチャを構築する.特に, Siamese CNNを参考としており,二枚の学習を入力して画像間の違い,ここでは Transformationを出力する.中間層では二つのBase-CNNを統合(差分を取得?)し ている.特徴の学習にはSlow Feature Analysis (SFA; 下式)を採用.L2ノルムを採 用し,誤差の計算に適用した. 左はKITTIデータにおけるvisual odometry(error rate)である.Fine-tuningのサンプ ル数が増えるほどエラー率は低下する.Pre-training modelは文字認識のMNIST である.シーン認識であるSUNデータでも精度を比較した. 結果的に,エゴモーションが有効であるということを実証した. Links 論文 http://www.cv-foundation.org/openaccess/content_iccv_2015/ papers/Agrawal_Learning_to_See_ICCV_2015_paper.pdf
  • 4.
    Mattis Paulin, MatthijsDouze, Zaid Harchaoui, Julien Mairal, Florent Perronnin, Cordelia Schmid, “Local Convolutional Features with Unsupervised Training for Image Retrieval”, in ICCV, 2015. 【3】 Keywords: Stereo Matching, Local Conv Features 新規性・差分 手法 結果 概要 ステレオマッチングなどのタスクにおいてはローカルな特徴は 非常に重要であるが,本研究ではCNNにより局所的に類似す る特徴をモデリングする.著者らが考案するConvolutional Kernel Network (CKN)を局所領域に適用したPatch-CKNを適 用してステレオマッチングを行う. SIFTの代替となるようなCNNのローカルパッチベースの記述子 patch-based CKNを考案する.また,Rome-Patchesデータセッ トを考案し,パッチベースの特徴記述子の精度を競う. 下表に記述子の比較を示す. 提案のCNNでは51x51pixelsのパッチを入力として類似 度を出力する.基本的には従来と同じようなモデルを 持っているが,特徴(kernel)マップによりパッチ同士を 比較する. RomePatchesデータセットは16,719画像から構 成されているデータであり,66のバンドル(視 点?)から構成される.9,000のターゲットポイント や1000のクエリが訓練・テストに含まれるため 20,000のパッチがトータルとして入手できる.評 価にはMean Average Precisionを算出する. SIFTや従来のCNNと比較した例が右表である. Links 論文 http://www.cv-foundation.org/openaccess/content_iccv_2015/ papers/Paulin_Local_Convolutional_Features_ICCV_2015_paper.pdf プロジェクト(コードあり) http://lear.inrialpes.fr/people/paulin/projects/RomePatches/
  • 5.
    Xun Huang, ChengyaoShen, Xavier Boix, Qi Zhao, “SALICON: Reducing the Semantic Gap in Saliency Prediction by Adapting Deep Neural Networks”, in ICCV, 2015. 【4】 Keywords: SALICON (Saliency in Context) 新規性・差分 手法 結果 概要 コンテキストに着目した顕著性マップの生成,SALICON (Saliency in Context)の提案.SALICONの実現のためにDeep Neural Networks (DNN)を用いる. タスクに合わせたデータセットによるFine-tuningと複数の画像 サイズを統合した評価法. Pre-trained modelの学習にはImageNetを用いる.顕著性マップの推定と物体認識 のギャップを埋めるためにFine-tuning CNNを用いる.複数スケールの画像も統合 する. 本研究においてはAlexNet, VGG-16, GoogLeNetを組み合わせた.これらのニュー ラルネットは複数のMax-poolingを保持しており,さらには複数の非線形畳み込み 層を含む.左図はSALICONのアーキテクチャである.図の例ではふたつのスケー ルの画像を入力とした顕著性マップの推定である. データセットにはOSIE, MIT1003, NUSEF, FIFA, PASCAL-S, Torontoを適用した. 評価にはsAUC (shuffled-Area Under the Curve)を使用.訓練とテスト法について も論文に記載.下は結果の一例.AlexNet, VGG-16, GoogLeNetにてそれぞれ  SVM, Coarse, Fine, Fine+Coarsed (Fixed), Fine, Fine+Coarsedと比較している. Links 論文 http://www.cv-foundation.org/openaccess/content_iccv_2015/ papers/Huang_SALICON_Reducing_the_ICCV_2015_paper.pdf プロジェクト http://salicon.net/ デモ http://salicon.net/demo/
  • 6.
    Edgar Simo-Serra, EduardTrulls, Luis Ferraz, Iasonas Kokkinos, Pascal Fua, Francesc Moreno-Noguer, “Discriminative Learning of Deep Convolutional Feature Point Descriptors”, in ICCV, 2015. 【5】 Keywords: Patch Representation, Siamese network 手法 結果 概要 パッチサイズの表現能力を高めるためにConvolutional Neural Networks (CNN)を用いる.CNNの中でも特にSiamese network を用いることでパッチペアの対応関係を学習する. Siameseネットワークは重みを共有するネットワークであり,損失関数がL2距離で ある.Siamese Networkを学習するためにMulti-View Stereo (MVS)データセットを 用いる.MVSには1.5Mの64x64pixelsのグレースケール画像が含まれる. しかし,空間の距離が離れているパッチの類似度計算は困難であるため,この探 索に学習済みのSiameseネットワークを用いる.誤差逆伝播法は誤差が大きい時 のみ行う. MVSデータセットにて学習しテストする. 学習にはSGD,学習率を0.01にして 10,000回の学習ごとに1/10に更新す る.momentumは0.9に設定.右がステレ オベースライン3vs5の結果である.実験 では回転への不変性やwide-baselineへ の対応,照明変動も確認した. Links 論文 http://www.cv-foundation.org/openaccess/content_iccv_2015/ papers/Simo- Serra_Discriminative_Learning_of_ICCV_2015_paper.pdf 動画 https://www.youtube.com/watch?v=QPMEakAPIsw プロジェクト(コードあり) http://hi.cs.waseda.ac.jp/~esimo/ja/research/deepdesc/
  • 7.
    Shubham Tulsiani, JoaoCarreira, Jitendra Malik, “Pose Induction for Novel Object Categories”, in ICCV, 2015. 【6】 Keywords: Pose Prediction 手法 結果 概要 アノテーションされていないカテゴリの3次元物体姿勢を推定す る問題.新規の物体をCGなどで生成してリアリティを出すため に動物やバイクなど物体の姿勢を推定. 提案手法の概要は下図に示される通りである.既知物体からアノテーションを行 い,物体姿勢を学習する.次にインスタンス作成のため姿勢の仮説を生成.最後 に部分ごとに意味付け(Reasoning)を行い,推定を高精度化. 検証のためには,PASCAL3D+データセットを用いる.左表は物体クラスの結果例 であり,提案のGeneralized Classifier (GC)の方が精度が安定してよかった.CNNも 適用しており,VGGNetベースのアーキテクチャを学習.右表はreasoningの結果で ある. Links 論文 http://www.cv-foundation.org/openaccess/content_iccv_2015/ papers/Tulsiani_Pose_Induction_for_ICCV_2015_paper.pdf GitHub https://github.com/shubhtuls/poseInduction 著者ページ http://www.cs.berkeley.edu/~shubhtuls/
  • 8.
    Alexander Richard, JuergenGall, “A BoW-equivalent Recurrent Neural Network for Action Recognition”, in BMVC, 2015. 【7】 Keywords: Action Recognition, BoW, Recurrent Neural Networks (RNN) 新規性・差分 手法 結果 概要 Bag-of-words (BoW)のより有効な使用法として,Recurrent Neural Networks (RNN)による表現方法により行動認識に適用 する.実験では4種類のベンチマークに対して行う. 従来,BoWのベクトルはSVMなどにより識別が実行されてきた が,本研究ではRNNを用いて行動認識に対する有効性を示 す. 右図はHMDB51やUCF101を用いた 実験である.state-of-the-artなモデ ルであるIDT+FVなどには及ばない が,BoWモデルでも良好な精度であ ることを確認した. Links 論文 http://www.bmva.org/bmvc/2015/papers/paper057/index.html BoWは通常,k-meansクラスタリングやGMMによりベクトル量子化を行う.Hard assignmentやSoft assignmentなどもテクニックの一つであり,k-meansはGMMの特 殊な場合であると考えることができる.ここではvisual wordsの事前確率を1に正規 化し,Neural Networkへの入力とする.従来は線形SVMにより識別していたが,本 論文ではsoftmax layerにより識別とそのための最適化を行う.下図はRNNのモデ ルであり,最初の層でBoWからsoftmax層へ入力,次に繰り返し処理,最後に識別 のsoftmax層にてラベルを出力する.
  • 9.
    Kasim Terzic, HusseinAdnan Mohammed, J.M.H. du Buf, “Shape Detection with Nearest Neighbor Contour Fragments”, in BMVC, 2015. 【8】 Keywords: Shape Detection, Nearest Neighbor, Contour 手法 結果 概要 物体検出のために輪郭検出の高精度化を図る論文.仮設の生 成,モデルの生成,仮設の検証を効果的に行うことができるフ レームワークを提案する. 断片化された輪郭をつなぐためにBayesに基づく推定を行う.欠損を含む輪郭情報 sをあるクラスcに属するかどうかを手がかりに,下記d(s)をベースに推定する.さら に,補助的な尤度をNearest Neighborにより計算する.論文中ではrelevance r(s,c) を定義した. 下図はフロー図である. 下図はETHZ datasetに対する精度である. Links 論文 http://www.bmva.org/bmvc/2015/papers/paper059/index.html
  • 10.
    Bilge Soran, AliFarhadi, Linda Shapiro, “Generating Notifications for Missing Actions: Don’t forget to turn the lights off!”, in ICCV, 2015. 【9】 Keywords: Action Recognition, Action Analysis 手法 結果 概要 一人称ビジョンにおける日常行動の解析.行動間の関連性を 解析し,行動の「し忘れ」がないかを通知する.同時に,新しい 一人称ビジョンのデータセットも公開する. 下図はLatteを作っている例である.文脈から行動予測と行動認識を同時に推進 し,行動の抜けがあった場合に通知する.ここでは,早期行動認識と一人称ビジョ ンにおける行動の切り替わり(Action Segmentation)を同時に行わなければいけな い.さらには,予めイベント内(latte making)に含まれるオーダーと遷移を学習しな ければならない.下図は遷移モデルや行動のクラスを示す.行動クラスは始まり・ 途中・終わり状態を含むので29x3=87クラスで表現. LooxcieHDを装着した一人称ビデオでデータ セットを作成.約100,000フレームの15fps動画. 23本のイベント動画を訓練として,18本の「し忘 れ」ありの動画にてテストする.さらに,29の行 動クラスが存在する. Overall accuracy: 46.2% (行動の開始時から10フ レーム), 72.7% (すべての時系列情報が与えられ た際).行動予測と行動認識の精度は68.3%であ る. Links 論文 http://www.cv-foundation.org/openaccess/content_iccv_2015/ papers/Soran_Generating_Notifications_for_ICCV_2015_paper.pdf プロジェクト
  • 11.
    Zichao Yang, MarcinMoczulski, Misha Denil, Nando de Freitas, Alex Smola, Le Song, Ziyu Wang, “Deep Fried Convnets”, in ICCV, 2015. 【10】 Keywords: CNN, ConvNets 新規性・差分 手法 結果 概要 全結合層のパラメータが異常に多い.Deep Fried Convnetsで はFastfood TransformをNN用に改良し,全結合層の行列計算 を少数のパラメータで近似できるようにした. 本来は無限次元なものを,有限の次元で近似することができ る,この仕組みを用いて,膨大なパラメータを持つ全結合層の パラメータをより低次元で近似する. Fastfood TransformはRandom Kitchen Sinkを高速化する手法として提案された. Random Kitchen Sinkはカーネルと等価な特徴ベクトルをサンプリングで算出する. 本来は無限次元なものを,有限の次元で近似することができる.この仕組みを用 いて,膨大なパラメータを持つ全結合層のパラメータをより低次元で近似する. Deep Learningへは,全結合層をAdaptive Fastfood Transformで置き換える(下 図).Random Projection (RP; ランダムな行列をかけるだけで高次元データをデー タ間の距離関係を保ったまま低次元化できる)と比較すると必要な記憶容量・計算 量も低い,学習可能であり精度が高いという特徴がある. 上の表は全結合層のモデルで比較 @MNIST(Fastfood 1024dim, 2048dimがベスト),下 の表は同じく全結合層のモデルで比較@ImageNet (Adaptive Fastfoodがベスト),それ以外にも畳み 込み層も含めて学習した結果やSVDによる次元削 減法との比較も実験にて示されている. Links 論文 http://www.cv-foundation.org/openaccess/content_iccv_2015/ papers/Yang_Deep_Fried_Convnets_ICCV_2015_paper.pdf 参考資料 http://www.slideshare.net/FujimotoKeisuke/deep-fried-convnets
  • 12.
    Chao Ma, Jia-BinHuang, Xiaokang Yang, Ming-Hsuan Yang, “Hierarchical Convolutional Features for Visual Tracking”, in ICCV, 2015. 【11】 Keywords: Object Tracking 新規性・差分 手法 結果 概要 CNNの上位層と下位層を組み合わせてオンライン学習を実行 する. 上位層と下位層を組み合わせて,さらにLinear Correlation Filtersベースのオンライン学習を実行することにより,最先端の 精度を実現. Fine-tuningなしのVGG3,4,5層目の最後の特徴量を利用(左下図).全結合層では なく畳み込み層の特徴マップを用いることで位置情報を求め,さらに上位層から特 徴を取り出すことで抽象化された意味を結合できる.物体位置はこれらの特徴マッ プから推定する.特徴マップの可視化は(右下図). オンライン学習にLinear correlation filtersを適用する. 下の表はstate-of-the-artとの比較である.各タスクにおいて良好な性能を示した.ここで,計算時間の 45%はCNNのforwardに要している.AlexNetとVGGNetの比較や,Hypercolumns[Hariharan+, CVPR2015] の特徴マップとも比較した. Links 論文 プロジェクト https://sites.google.com/site/jbhuang0604/publications/cf2 コード https://github.com/jbhuang0604/CF2
  • 13.
    Juan C. Caicedo,Svetlana Lazebnik, “Active Object Localization with Deep Reinforcement Learning”, in ICCV, 2015. 【12】 Keywords: Deep Reinforcement Learning, DQN 新規性・差分 手法 結果 概要 強化学習用のニューラルネット,Deep Q Networks (DQN)を物 体検出に適用. 物体検出の最先端はR-CNNやその一連の改 善であるが,その代替としてDQNを適用する. R-CNNでは候補領域を抽出しているが,その 代わりの動作(並進,拡大縮小)をDQNが行う. 最終的な探索領域は圧倒的に少ない数でおさ まった.Selective Searchが約2000/imageに対 してDQNは数十オーダ. DQNの強化学習では,ある観測とそれに伴う報酬により行動をより賢くするように 学習する.9つのアクション(a; bboxの並進,拡大縮小,trigger),とアクションに伴う 報酬を学習.報酬は正解矩形と推定したbboxの領域評価(IoU)を指定する.右図は 本研究で用いたCNNの構造. 下の表に結果を示す.テストはPASCAL VOC2007にて行い,結果からR-CNNには 及ばなかったものの,それ以外の手法と比較すると高い精度を実現した.また,候 補の数が少ない時のrecallが圧倒的に他のobjectness手法と比較すると高いこと が判明した. Links 論文 http://web.engr.illinois.edu/~slazebni/publications/ iccv15_active.pdf プロジェクト 参考資料 http://www.slideshare.net/takmin/cvactive-object- localization-with-deep-reinfocement-learning
  • 14.
    Jungseock Joo, FrancisF. Steen, Song-Chun Zhu, “Automated Facial Trait Judgment and Election Outcome Prediction”, in ICCV, 2015. 【13】 Keywords: Election, Face Recognition 新規性・差分 手法 結果 概要 選挙の顔画像から,どちらの候補者が勝ったのかを判定する システムを作成した. 非常に面白い論文.複数の質問事項から学習データを収集 し,Low-, Mid-, High-levelな特徴や属性を与える.選挙におけ る自動判別を初めて行った論文であると位置付けた. 年齢・富・知性・身だしなみ・自身・活力・魅力(顔?)・男(女)らしさの8つの指標で評 価する.左下は2016年の大統領選挙の予想結果である.8つの指標の評価のため に,顔画像の入力からActive Appearance Model (AAM)による顔特徴点やHOG, Colorなどの特徴を抽出し,Middle-levelな属性を推定する.8つの指標はRank- SVM (Relative Attribute)により学習・推定. データセットには650画像 (男性491人,女性159人)を含む.これらの画像は2000年 ~2012年の政治家の画像であり,wikipediaから収集した.テストには2014年の選挙 の画像を用いている. Governorsを67.9%で,Senatorsを65.5%の精度で判定した.その他,共和党か民主 党かを男性62.6%,女性60.1%の確率で正答した. Links 論文 http://web.cs.ucla.edu/~joo/joo_iccv15_face_election.pdf プロジェクト http://www.viz2016.org/facial-traits/ 著者ページ http://www.viz2016.org/
  • 15.
    Ce Liu, JennyYuen, Antonio Torralba, “SIFT Flow: Dense Correspondence across Scenes and Applications”, in TPAMI, 2011. 【14】 Keywords: SIFT Flow, Dense SIFT, Feature Correspondence 新規性・差分 手法 結果 概要 ピクセルごとに計算した密なSIFTにより画像間の対応関係を計 算するSIFT Flowを提案.画像自体を128dimのSIFT特徴で表現 し,画像間のフローを抽出.異なるシーンの同クラス物体から のフローを計算可能にする. フローを抽出するという意味ではOptical Flowと類似するが, SIFT Flowの場合には大域的にフローを抽出することができる. また,SIFT特徴の密な表現により,異なる個体間においてもフ ローを抽出することに成功した(下図). 入力画像のすべての画素に対応するSIFT (128 dims)を計算する.これはDense SIFTと呼ばれる方法で,画像全体をSIFTで抽象化する.これにより,同クラスの形 状が類似する物体(左下図の2台の車など)の対応関係を取得できるようにする.可 視化のために上位3の主成分を抽出している(下図)が,マッチングの際には 128dimsの生ベクトルにアクセスする. マッチングはOptical Flowと類似するが,SIFT Flowの際にはdata term(式の1行目) によりw(p) = (u(p), v(p))へのベクトルフロー最適化,small displacement term (式の 2行目)により最小のフローベクトルへの拘束を,smoothness term(式の3行目)はフ ローベクトルの非連続性や外れ値の影響を低減する.目的関数を最適化するた め,Dual-layer Loopy Belief Propagationを適用した.また,高速化のため, Coarse-to-Fine探索を実行した(右図). 右図は惑星探査の画像.4年間日を空けて 撮影された画像に位置ズレが生じている.こ の結果から,断層が動いていることがわか る.異なる視点の物体の移動やオプティカル フローのように時系列の動きに対しても頑健 に作用することが判明した.また,顔認識や 画像解析,画像合成のデータベース生成な どにも適用可能性を示した. Links 論文 http://people.csail.mit.edu/celiu/SIFTflow/SIFTflow.pdf プロジェクト http://people.csail.mit.edu/celiu/SIFTflow/ 参考資料(30, 31ページ) http://www.slideshare.net/MakotoKimura/20140726-cv
  • 16.
    Kaiming He, XiangyuZhang, Shaoqing Ren, Jian Sun, “Deep Residual Learning for Image Recognition”, in arXiv, 1512.03385, 2015. 【15】 Keywords: ResNet, Deep Residual Networks, ILSVRC2015 新規性・差分 手法 結果 概要 残差(Residual)の学習をすることで構造をディープにしても画像 認識の精度を向上させたDeep Residual Networks (ResNet)を 提案.画像認識には152層のResNetが,物体検出やセマン ティックセグメンテーションには50/101層のResNetが良かったと 主張. 現在までのDeeperネットはVGGNetがあげられる.VGGNetでは 最大で19層であるが,実にその8倍の深さである152層のネット ワークにて学習しても勾配を損なわずに学習し,精度を向上さ せることに成功した. 主には順伝播と数回の畳み込みを省略した特徴マップの残差を計算・学習をくり かえす.単純に深くするよりも訓練やテストエラーともに向上した.特徴として, ・Max-poolingでなく,Average-poolingのみ ・全結合層はほとんど含まず,基本的にはsoftmax層につながる部分のみ ・ImageNetのテストセットにて3.57%のtop-5 error rate ・ダウンサンプリングにはストライドを2x2にする ・パラメータ数がVGGNetの18%に削減(VGG: 19.6B, Res: 3.6B) ・Shortcut Connectionによるパラメータや計算複雑性の増加はない ・学習はBatch Normalizationを適用 単純にDeepにすると勾配が消失してしまうため精度が下がるが,ResNetによる学 習では単調に増加した(20, 32, 44, 56, 110層の場合).ILSVRC2015のテストセットで は1,000クラスの画像識別で3.57%のエラー率である.また,ImageNetの物体検出 (200クラス)では62.1%,セマンティックセグメンテーションにおいてもトップの精度を 実現した. Links 論文 http://arxiv.org/abs/1512.03385 GitHub https://github.com/KaimingHe/deep-residual-networks 参考資料 http://www.slideshare.net/HirokatsuKataoka/deep-residual- learning-ilsvrc2015-winner
  • 17.
    Hirokatsu Kataoka, KiyoshiHashimoto, Kenji Iwata, Yutaka Satoh, Nassir Navab, Slobodan Ilic, Yoshimitsu Aoki, “Extended Co-occurrence HOG with Dense Trajectories for Fine-grained Activity Recognition”, in ACCV, 2014. 【16】 Keywords: Dense Trajectories, Extended CoHOG, Fine-grained 新規性・差分 手法 結果 概要 詳細行動認識の高精度化のため,Extended CoHOG + Dense Trajectoriesを組み合わせた.実験ではECoHOG, CoHOG, HOG/HOF/MBHによる実験を行い,共起特徴量が詳細行動認 識に対して有効であることを確認した. 詳細行動認識の問題に対して共起特徴量を適用するとより高 次な特徴表現を実現し,精度が向上することを確認した.MPII cooking datasetにて(当時)最高性能を達成. Dense Trajecotriesに従い,dense optical flowを抽出,特徴抽出,ベクトルコーディ ング(Bag-of-words).特徴抽出にはHOG/HOF/MBHを取得するが,共起特徴は特 徴空間が膨大なため,コードワード化の際に主成分分析により70次元に圧縮.70 次元は実験的に決定した.ベクトル量子化数はDTの論文に従い,各特徴毎に 4,000に設定. 実験はINRIA surgery, MPII cooking datasetに 対して行い,もっとも高い性能を示した(右表 はINRIA surgery).MPII cookingに対しては 62.4%の認識率.実験では5x5の共起特徴抽 出のパッチサイズやPCAの圧縮次元は70次 元が良いことを確認した. Links 論文 http://www.hirokatsukataoka.net/pdf/ accv14_kataoka_finegrainedactivityrecognition.pdf プロジェクト
  • 18.
    Kishore K. Reddy,Mubarak Shah, “Recognizing 50 Human Action Categories of Web Videos”, in MVA, 2012. 【17】 Keywords: UCF50 dataset 新規性・差分 手法 結果 概要 行動認識のデータセットであるUCF50の提案.行動認識の分野 において50クラスという多クラス分類問題やデータセットの大規 模化という概念を持ち込んだ. 現在までの行動認識データセットの精度が飽和していることを 受け,(KTHやWeizmannなど)多クラス分類や大規模データセッ トを提案.YouTubeから動画を集めることに対しても言及した. このアイディアは他の行動認識データセット (e.g. UCF-101, HMDB51,ActivityNet)にも継承された. UCF50には以下の行動が含まれる Baseball Pitch, Basketball Shooting, Bench Press, Biking, Biking, Billiards Shot,Breaststroke, Clean and Jerk, Diving, Drumming, Fencing, Golf Swing, Playing Guitar, High Jump, Horse Race, Horse Riding, Hula Hoop, Javelin Throw, Juggling Balls, Jump Rope, Jumping Jack, Kayaking, Lunges, Military Parade, Mixing Batter, Nun chucks, Playing Piano, Pizza Tossing, Pole Vault, Pommel Horse, Pull Ups, Punch, Push Ups, Rock Climbing Indoor, Rope Climbing, Rowing, Salsa Spins, Skate Boarding, Skiing, Skijet, Soccer Juggling, Swing, Playing Tabla, TaiChi, Tennis Swing, Trampoline Jumping, Playing Violin, Volleyball Spiking, Walking with a dog, and Yo Yo. 右表が結果例である. Links 論文 http://crcv.ucf.edu/data/UCF50_files/MVAP_UCF50.pdf UCF50 dataset http://crcv.ucf.edu/data/UCF50.php UCF101 dataset http://crcv.ucf.edu/data/UCF101.php
  • 19.
    Heng Wang, CordeliaSchmid, “Action Recognition with Improved Trajectories”, in ICCV, 2013. 【18】 Keywords: Improved Dense Trajectoires (IDT) 新規性・差分 手法 結果 概要 行動認識の最先端手法であるDense Trajectoies (DT)を発展さ せたImproved DT (IDT)を提案.DTと比較して安定したフローを 抽出し,ベクトルの表現能力を向上させたことで行動認識の データセットに対してさらなる精度向上を実現した. 従来のDTでは背景に余分なフローが発生してしまう問題が精 度向上のボトルネックになっていた.これに対して,SURF +RANSACによりカメラモーションを推定し,背景のフロー除去 により行動認識の精度向上に貢献.下図の白色フローがノイ ズとして除去された. DTからの拡張として, 1.  SURF+RANSACによるフローノイズの低減 2.  人物検出によるノイズ低減 3.  Fisher Vectors (FV)の使用 下図は安定化したフローによるMBH特徴の精細化と,人物検出によるノイズ除去 である. Hollywood2, HMDB51, Olympic Sports, UCF50データセットに対し て,2013年当時では最高性能を達 成(右表).Bag-of-features (BoF)の ベクトルをFVに置き換えることも非 常に有効であることを示した. Links 論文 https://hal.inria.fr/hal-00873267v2/document プロジェクト https://lear.inrialpes.fr/people/wang/improved_trajectories 参考資料 http://www.slideshare.net/HirokatsuKataoka/dt-tutorial
  • 20.
    K. Simonyan, A.Zisserman, “Very Deep Convolutional Networks for Large-Scale Visual Recognition”, ICLR, 2015. 【19】 Keywords: VGGNet, Very Deep, Simonyan, Zisserman 新規性・差分 手法 結果 概要 Deeper Netの先駆け的研究である,VGGNetの論文.11層から 19層までがサポートされているが,主に使用されるのは16層 ネットワーク,次いで19層のネットワークが用いられる. VGGNetと称され,高い非線形性による画像認識の高精度化 や中間層の特徴量を取り出し転移学習をしても高い性能を誇 る. VGGNetの特徴として, ・主に16/19層の深いネットワーク構成 ・パッチサイズがすべて3x3で構成されていて,プーリングの前に複数回畳み込む ことでより大きなパッチサイズでたたみ込むことと同義(3x3を2回たたみ込むと5x5 1回の畳み込みと同義,かつパラメータを削減 3x3x2 < 5x5) ・畳み込みの回数を増やすことで高い非線形性を実現 ・5回のプーリングに対して全13回の畳み込み(VGG-16の場合) ・3層の全結合層を保有 学習時には ・Multinomial logistic regression ・Mini-batchやdropout, weight decay regularizationを採用 ・74 training epochs ・入力画像サイズは224x224 ・NVIDIA Titan x 4を使用して2~3週間の学習時間が必要 ILSVRC2014のLocalization taskにて1位(25.3% error),Classification taskにて2位 (7.3% error)を達成.左がILSVRC,右がPASCAL VOCやCaltechへの試行結果であ る. Links 論文 http://arxiv.org/pdf/1409.1556.pdf プロジェクト http://www.robots.ox.ac.uk/~vgg/research/very_deep/ ILSVRC2014 oral https://www.youtube.com/watch?v=j1jIoHN3m0s
  • 21.
    Sergey Ioffe, ChristianSzegedy, “Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift”, in ICML, 2015. 【20】 Keywords: Batch Normalization (BN), CNN Learning 新規性・差分 手法 結果 概要 CNNの学習ではミニバッチ(Mini-batch)が用いられているが, 本稿ではMini-batchごとに画像の入力を正規化することで比較 的高い学習率でもアーキテクチャ自体を学習することに成功し た.現在のdeeperモデル(GoogLeNetやResNetなど)に対しても このBatch Normalizationが適用されている. 各層ごとにMini-batchの画像の入力を正規化することで,収束 が早くなり,学習率を比較的高くしても問題ないと主張.さら に,高速な学習を実現した.BNの使用により,状況によっては dropoutすら必要でなくなり,ImageNetの識別タスクにおいては top-5 errorが4.82%となった. 特に多層のネットワークであると低層 に生じるCovariance Shiftの影響によ り初期パラメータの設定が困難にな る.この問題を解決するためにBatch Normalizationが必要になる. 右図はBatch Normalizationの手順.x は活性化特徴量であり,mini-batchの 分散により正規化,γやβを学習. 下図はMNISTを適用した際のテスト精度である.BNがあり/なしの場合には明らか にBNを採用した方が収束の速さや精度の向上が見られた. ILSVRC2012の画像識別タスクでは,学習率高め,Dropoutなし,L2 weight regularizationなし,などの条件で最高精度を達成. Links 論文 http://jmlr.org/proceedings/papers/v37/ ioffe15.pdf 参考 http://takatakamanbou.hatenablog.com/ entry/2015/12/20/233232
  • 22.
    Yaniv Taigman, MingYang, Marc’Aurelio Ranzato, Lior Wolf, “DeepFace: Closing the Gap to Human-Level Performance in Face Verification”, in CVPR, 2014. 【21】 Keywords: DeepFace, Face Identification 新規性・差分 手法 結果 概要 人間とほぼ同等の精度で顔認識を実現した,顔認識のマイル ストーン的な論文.顔検出・顔画像のアラインメント(正面顔へ の変換)・顔特徴抽出・顔識別の手順で顔認識を実行.約4,000 クラスにて97.35%の精度を達成. 現在までの顔認識の中でstate-of-the-artな精度を実現.人間 の水準にまで到達した. 検出された顔画像に対して正面顔への変換を行う(左図).2次元や3次元情報を用 いて変換を行うが,2次元の変換ではLBP+SVRにより6点の顔特徴点から正面顔 へ変換する.3次元の変換では予め保有している3次元モデルの67点から変換行 列を推定し,正面顔へ射影する. DNN(左下図)は最初の層でこそ畳み込みとプーリングを実行するが,Locally- connected layers (L4,5,6)では畳み込みではなく局所的につなげて特徴抽出するに 止まる.これは,顔画像の位置合わせを十分に行っているため,畳み込み層が必 要ないことによるものと思われる.その後,全結合層を経て出力層へつながる. Labeled Faces in the Wild (LFW) dataset やYouTube Face (YTF) datasetを用い た.LFWでは特に人間の精度も算出 (97.53%).DeepFaceの精度はそれに匹敵 する97.35%を実現した.低解像画像や複 雑環境が含まれるYTFにおいても91.4%と 高い精度を示した. Links 論文 http://www.cv-foundation.org/openaccess/content_cvpr_2014/ papers/Taigman_DeepFace_Closing_the_2014_CVPR_paper.pdf プロジェクト 参考 https://research.preferred.jp/2014/03/face-verification- deepface-and-pyramid-cnn/
  • 23.
    Yang Cao, ChanghuWang, Zhiwei Li, Liqing Zhang, Lei Zhang, “Spatial-Bag-of-Features”, in CVPR, 2010. 【22】 Keywords: Bag-of-features 新規性・差分 手法 結果 概要 BoFの改良版であるSpatial Pyramid Matching [Lazebnik+, CVPR2006]では,空間的な階層構造を形成して特徴を取得し ていたが,画像の変換に弱いという特徴があった.それを,ヒス トグラム変換,並進や回転への不変性をもたせて改良を行っ た. 従来法としてはSpatial Pyramid Matching [Lazebnik+, CVPR2006]があげられるが,スケールの変動や並進,回転に は弱いという特徴があった.本稿ではその問題を改善した. 主に下図に示す通りである. 右図がOxford 5K datasetに対する結 果である.オリジナルのBoFをベース (58.5%)として,すべての統合モデル は64.4%にまで向上した. Links 論文 http://ieeexplore.ieee.org/xpl/login.jsp? tp=&arnumber=5540021&url=http%3A%2F%2Fieeexplore.ieee.org %2Fiel5%2F5521876%2F5539770%2F05540021.pdf%3Farnumber %3D5540021 Slide http://sglab.kaist.ac.kr/~sungeui/IR/Slides/DG_Yu_1.pdf
  • 24.
    Y. LeCun, L.Bottou, Y. Bengio, P. Haffner, “Gradient-Based Learning Applied to Document Recognition”, in Proceedings of the IEEE, 1998 【23】 Keywords: Convolutional Neural Networks (CNN) 新規性・差分 手法 結果 概要 Convotlutional Neural Networks (CNN)の提案論文.それまで の流れとは対照的に画像の局所的な畳み込み=>プーリングを 繰り返し,全結合とすることで文字認識に対して精度が向上す ることを明らかにした.MNISTデータセットに対して99%以上の 認識率を達成. 入力,畳み込み,プーリング,全結合層を経て出力層へつなが る一連の流れは,現在までのネットワーク構造に受け継がれる こととなる. 下記にネットワーク構造を示す.LeNet-5と称される. ・入力層:32x32 ・畳み込み1:28x28x6 (特徴マップサイズx特徴マップサイズxカーネル数) ・プーリング1:14x14x6 ・畳み込み2:10x10x16 ・プーリング2:5x5x16 ・全結合1:120 ・全結合2:84 ・出力:10 (0 - 9までの数字に対応) 文字認識用のデータセットであるMNISTデータセットに対して実験を行った結果, 99.2%の精度で認識できることが判明した.なお,現在の最高性能は0.23% [ Ciresan et al. CVPR 2012]である.LeNet-5はCaffemodelやTensorFlowなどでも入 手可能である. Links 論文 http://yann.lecun.com/exdb/publis/pdf/lecun-98.pdf プロジェクト http://yann.lecun.com/exdb/lenet/ MNIST dataset http://yann.lecun.com/exdb/mnist/ Caffe MNIST tutorial http://caffe.berkeleyvision.org/gathered/examples/mnist.html
  • 25.
    Myung Jin Choi,Joseph J. Lim, Antonio Torralba, Alan S. Willsky, “Exploiting Hierarchical Context on a Large Database of Object Categories”, in CVPR, 2010. 【24】 Keywords: Context Model, Object Categorization 新規性・差分 手法 結果 概要 物体認識を実行する際のコンテキスト(Context)について考え る.物体のアピアランスのみならず,周辺のコンテキスト(位置 関係など)情報を追加することで精度が向上すると主張した. データセットとして,SUNデータセットに対しさらにラベル付けを 行い,コンテキストモデルの有効性を示した. 下図はSUNデータセットに対して学習したコンテキストモデルである.階層構造で 形成され,トップダウンのモデルとなっている.例ではルートがsky,そのしたがfloor やmoutain, fieldなどである.モデルは共起性の統計を捉えるPrior Modelと空間的 な物体間の位置関係を捉えるSpatial Priorからなる.情報としてGist特徴量g, 候補 領域W,そのスコアsから物体b, 正解検出位置c, そしてすべての物体位置Lを推定 することで最適なつながりを構成する問題である. 右図はPASCAL VOC 07やSUN 09に対しての精度 である.青がBaselineのgist特徴,赤がコンテキスト モデルである. Links 論文 http://people.csail.mit.edu/lim/paper/cltw_cvpr10.pdf プロジェクト(データセット, コードあり) http://people.csail.mit.edu/myungjin/HContext.html YouTube https://www.youtube.com/watch?v=2ONULTa44Rc
  • 26.
    Antonio Torralba, AlexeiA. Efros, “Unbiased Look at Dataset Bias”, in CVPR, 2011. 【25】 Keywords: Dataset Bias 新規性・差分 手法 結果 概要 物体認識のタスクにおけるデータセットの解析を行った.その 結果,データセットごとにBias (偏り)があり,汎用性はないもの の,データセットの特性に合わせて学習やテストをすることが重 要であると位置付けた. Caltech101, Tiny-images, LabelMe, 15 scenes, MSRC, Corel, COI-100, Caltech256, UIUC, PASCAL 07, ImageNet, SUN09の データセットを解析し,その偏りを詳細に解析した.データセット を整理することで研究の方針を明らかにする試み. ある程度データを見ていると,どれがどのデータかわ かるようになってくる(右図)?コンピュータがこのタスク をやろうとすると39%の正答率しかない.(MITの学生は 約75%) より詳細に見てみると,各データセットの例え ば車を取り上げてもデータセットにより色や形状,シー ンなど異なる場面を扱っている.論文中の解析では各 ラベル(vehicle, pedestrianなど)ごとの識別・検出率や Negativeクラスのバイアスについて行った.データセッ トによってはクラスに検出しやすいものが含まれてい ることが判明した.ここから,バイアスをSelection bias (アノテーション時),Capture bias (撮影時),Category or Label bias (カテゴリ・ラベル時),Negative set bias (非正解画像)に分類した. 下はcar detection, person detectionの結果,positive setとnegative setを変更して 実験した結果,大体のデータセットにて精度が落ちた.ImageNetはバイアスが少な いことが示された. Links 論文 http://people.csail.mit.edu/torralba/publications/ datasets_cvpr11.pdf プロジェクト http://people.csail.mit.edu/torralba/research/bias/
  • 27.
    Andreas Veit, TomasMatera, Lukas Neumann, Jiri Matas, Serge Belongie, “COCO-Text: Dataset and Benchmark for Text Detection and Recognition in Natural Images”, in arXiv: 1601.07140, 2016. 【26】 Keywords: Text Detection, Dataset 新規性・差分 手法 結果 概要 もともとは物体検出や画像キャプショニングのタスクが含まれ ていたMS COCOデータセットに対して文字検出のタスクを追加 した.自然なシーン(in the wild)に対して文字領域の検出やそ の文字の内容を当てる. MSCOCOに文字のアノテーションを付加したが,その数は 63,000の画像に対して173,000のアノテーションが含まれる. COCOデータセットでは,他のデータセットと比較すると ・画像に対する詳細なラベル付けがされている ・画像キャプショニングのアノテーションが十分にされている ・画像に出現する文字の領域や種類(手書き・機械のプリント文字)のバリエーショ ンが豊富 という利点を持つ.これらの利点を最大限活かすためにもCOCOデータセットに対 して文字検出のタスクを増やした. アノテーションの内容としては, ・bounding box ・読みやすい/読みにくい ・カテゴリ:機械プリント/手書き/その他 ・英語か非英語 ・UTF8 string 比較する手法(OCR algorithms)は以下の3種類を用いた.(が,製品であるので匿 名化して下記の表にA, B, Cにて表記) ・Google ・TextSpotter ・VGG [Jaderberg+, IJCV2015] 文字検出の正解は正解矩形とのIoUが50%以上の時とした.各アノテーションの項 目を当てる.結果としては下表に示す. Links 論文 http://vision.cornell.edu/se3/wp-content/uploads/ 2016/01/1601.07140v1.pdf プロジェクト http://vision.cornell.edu/se3/coco-text/
  • 28.
    Liang Zheng, LiyueShen, Lu Tian, Shengjin Wang, Jingdong Wang, Qi Tian, “Scalable Person Re-Identification: A Benchmark”, in ICCV, 2015. 【27】 Keywords: Improved Dense Trajectoires (IDT) 新規性・差分 手法 結果 概要 より現実問題を解決するため,新しいRe-IDのLarge-Scaleデー タセットを提案している. Large-Scale問題に対処するため,教師なしBoWを提案し,複 数のデータセットで最先端の結果を示した. 従来のRe-IDデータセットには2つ問題があった. ・データの不足(Large-scaleのアルゴリズムができない) ・検出窓が手動(現実のアプリを考えると自動にすべき) これらの問題は無視できない. また,近年のRe-IDはかなり強引な特徴マッチングで解決して いる.そのため計算効率が悪いという問題がある. これらを解決するため,以下の2つに取り組む. ・Dataset “Market-1501”の提案:camera6台,1501人,500K枚 の画像,人検出はDPM ・最先端の画像検索システム:教師なしBoW 基本的にはBoFのフレームワークにそっている. ・特徴抽出:Color Name 記述子 ・コードブック:k-means法 ・量子化:Multiple Assignment(複数(10個)のVWsに投票する) ・コードワードの重み付け:TF-IDF さらに,下記のように改良している. ・弱幾何拘束:従来手法のAdjaxenxy Constrained Searchではなく,ストライプ状に BoFを構築していくことで,計算コストを抑えつつ幾何変化に対応する ・背景のノイズ除去:2次元のガウス関数でぼかす ・Multiple Queries:1枚絵からだけでなく,複数のQuery画像を用いてRe-IDする ・再ランキング学習:類似度をもとに再ランキング学習する Links 論文 http://www.cv-foundation.org/openaccess/content_iccv_2015/ papers/Zheng_Scalable_Person_Re- Identification_ICCV_2015_paper.pdf プロジェクト http://www.liangzheng.org/Project/project_reid.html
  • 29.
    Chi Su, FanYang, Shiliang Zhang, Qi Tian, Larry S. Davis, Wen Gao, “Multi-Task Learning With Low Rank Attribute Embedding for Person Re-Identification”, in ICCV, 2015. 【28】 Keywords: Person Re-ID, Attribute, Maulti Task Learning 新規性・差分 手法 結果 概要 ・Multi-Task Learning with Low Rank Attribute Embedding (MTL-LORAE)の提案.Low RankなAttribute(長い髪など)に関 連性の高いAttribute(女性など)の関連性をMulti Task Learning を用いて推定し,Re-IDの精度向上を図っている. 複数のデータセットに対して手法を適用した結果,精度向上し た. ・複数のAttributeを用いるだけでなく,その関連性も考慮してい る. ・事前に,Attribute毎の関連性を学習しておく.(下図左) ・単純な特徴(RGB, HSV, YCrCb, Gaborなど)のそれぞれでAttributeを識別.(下図 中) ・上記2つの積を用いてRe-IDする.(下図右) ・ iLIDs-VIDでの結果 PRIDでの結果 Links 論文 : http://www.cv-foundation.org/openaccess/content_iccv_2015/ papers/Su_Multi-Task_Learning_With_ICCV_2015_paper.pdf プロジェクト
  • 30.
    Yang Shen, WeiyaoLin, Junchi Yan , Mingliang Xu , Jianxin Wu , and Jingdong Wang , “Person Re-identification with Correspondence Structure Learning”, in ICCV, 2015. 【29】 Keywords: 手法 結果 概要 ・カメラ視点変化や人物の姿勢変化による空間的な位置ずれ の対処法を考案している. ・初めに,異なるカメラで撮影した同一人物をpatch-wiseでマッチングし,構 造の関係性をboostingベースのアプローチで学習する.さらに,カメラ間の 制約(カメラAよりもBのほうが少し下に映るなど)をglobal-basedマッチングを 導入することで位置ずれを解消している. ・ Links 論文: http://www.cv-foundation.org/openaccess/content_iccv_2015/ papers/Shen_Person_Re-Identification_With_ICCV_2015_paper.pdf
  • 31.
    Xiang Li ,Wei-Shi Zheng , Xiaojuan Wang , Tao Xiang , and Shaogang Gong, “Multi-scale Learning for Low- resolution Person Re-identification ”, in ICCV, 2015. 【30】 Keywords: 手法 結果 概要 ・低解像度におけるRe-IDに対して,joint multi-scale discriminant cimponent analysis(JUDEA)を提案している. ・学習画像に対して,それを低解像度に落とした画像を用意する ことで低解像度におけるRe-IDを実現している. ・ Links 論文: http://www.cv-foundation.org/openaccess/content_iccv_2015/ papers/Li_Multi-Scale_Learning_for_ICCV_2015_paper.pdf
  • 32.
    Seong Joon Oh,Rodrigo Benenson, Mario Fritz and Bernt Schiele , “Person Recognition in Personal Photo Collections ”, in ICCV, 2015. 【31】 Keywords: 手法 結果 概要 ・日常的な写真から人物を認識する課題において,異なる身体 の手がかり・学習データの影響・システムの一般的なエラーを, CNN特徴を用いて詳細に分析する.そして,従来のベンチマー クや手法の限界について検証する. ・人物認識の手がかりとして,右図のようにScene(s), Body(b), Upper body(u), Head(h), Face(f)をアノテーション し,CNN特徴で認識する. ・それぞれのCueに対してlinear SVMで識別する.データセットはPIPA datasetを用 いる.結論としては以下の知見が得られた. 1.顔領域は,不明瞭であっても,人物認識のための有効な特徴となる 2.異なる手がかりは互いに相補的である 3.大規模なデータベースが学習された特徴は,時間や外観変化に対して頑健 4.単純に個人の学習画像を増やせば認識率が上がるというものではない Links 論文 : http://www.cv-foundation.org/openaccess/content_iccv_2015/ papers/Oh_Person_Recognition_in_ICCV_2015_paper.pdf プロジェクト : https://www.mpi-inf.mpg.de/departments/computer-vision-and- multimodal-computing/research/people-detection-pose- estimation-and-tracking/person-recognition-in-personal-photo- collections/ Youtube:https://www.youtube.com/watch?v=F4Jh0f3xD0g
  • 33.
    Wanli Ouyang, HongyangLi, Xingyu Zeng, Xiaogang Wang , “Learning Deep Representation with Large-scale Attributes ”, in ICCV, 2015. 【32】 Keywords: 手法 結果 概要 ・物体の回転・視点・パーツの位置などのannotationがされてい るデータセットの提案.ImageNetを基に作成した.そして,一般 亭な物体検出のフレームワークでどの程度検出可能であるか を実験により確認している.さらに,階層的なクラスタリングを 導入することにより,attributeの認識精度を向上させている. ・データセット構築では, rotation・vierpoint・common・ class-specific・object parts location・object parts existingの要素についてアノ テーションしている. ・階層的クラスタリングでは, その要素それぞれについて attributeを推定し,詳細なク ラスタリングを実現している. ・ILSVRC 2014やPASCAL VOCで実験した結 果,FasrRCNNやGoogleNetよりも高精度で識 別が可能となった. 上はILSVRK2014,下はPASCAL VOCの実 験結果 Links 論文: http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/ Ouyang_Learning_Deep_Representation_ICCV_2015_paper.pdf プロジェクト :http://www.ee.cuhk.edu.hk/~wlouyang/projects/ImageNetAttribute/iccv15.html
  • 34.
    Yonglong Tian, PingLuo, Xiaogang Wang and Xiaoou Tang, “Deep Learning Strong Parts for Pedestrian Detection ”, in ICCV, 2015. 【33】 Keywords: 手法 結果 概要 ・人間の姿勢変化に頑健な人検出手法DeepPartsの提案.パー ツ毎に学習するが,学習する際はweakly labbeled dataで十分な 性能を発揮している.さらにオクルージョン問題にも従来手法より も高精能となっている. ・人物のパーツ学習において,全身を1として,重み学習する. 人物のパーツは大雑把なパッチでラベル付されており,1つの画 像からパーツ毎に分割することで,weakly labbeled dataを生成 している. さらに,周辺領域を探索することで位置ずれ問題も解消してい る. Links 論文 : http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/ Tian_Deep_Learning_Strong_ICCV_2015_paper.pdf ポスター: http://personal.ie.cuhk.edu.hk/~ty014/YonglongTian/poster_iccv15.pdf
  • 35.
    D Ciresan, UMeier, J Schmidhuber, “Multi-column Deep Neural Networks for Image Classification”, in CVPR, 2012. 【34】 Keywords: Classification,DNN,Multi-column 新規性・差分 手法 結果 概要 ・手書き文字や標識の認識は,伝統的なCV/MRの手法では人 間の精度に及ばない.deepなだけでなく並列化することでwide なネットワークとした,Multu-column Deep Neural Networks  (MCDNN)を提案 ・MNISTやCIFAR10など,広く認知されているデータセットを用 いて人間と同程度の精度に至ったのはこの手法が初めてであ ると主張している ・画像はブロックごとに前処理され,それぞれ並 列化されたDNNに入る.最終的な分類はそれぞ れのDNNの予測の平均を持って行われる.実 験では35のDNNを並列化している. ・MNIST,CIFAR10,標識,中国語文字などのデータセッ トを用いた実験で,下表のように,当時の最先端手 法と比較して高精度を達成 Links 論文 http://people.idsia.ch/~juergen/cvpr2012.pdf ・DNNのアーキテクチャは,入力以下conv- pooling-conv-pooling-conv-pooling の後,fully connectedを3つの形を基本としてい る
  • 36.
    Matthieu Courbariaux, YoshuaBengio, “BinaryNet: Training Deep Neural Networks with Weights and Activations Constrained to +1 or -1”, in arXiv: 1602.02830v1, 2016. 【35】 Keywords: BinaryNet, CNN 新規性・差分 手法 結果 概要 CNNの重みや活性化特徴の値が二値のニューラルネットであ るBinaryNetの提案論文.MNIST,CIFAR-10,SVHNデータセッ トにおいて実験を行ったところ,最先端に近い精度が出たと主 張.著者のオリジナル実装のみならず,Chainer実装も公開さ れている. BinaryNetは精度をあまり損なうことなく,高速に深層学習の学 習やテストを実行可能である. BinaryNetは ・各重みや活性化特徴を二値にすることで,XNORの演算を可能にし高速化 ・多階層のニューラルネットに対しBinaryNetの学習を行った ・活性化関数として,Sign Functionを利用し,ReLUよりも単純にSign(x) (xが正の場 合には+1, 負の場合には-1)とする. ・BinaryNetは(出力を0にする)Dropoutのような働きをしているともみなせる ・ミニバッチに対してBatch Normalizationをかける ・学習にはADAM最適化を施す.α=0.001, β1=0.9, β2=0.999, ε=10^-8 MNISTデータセットでは通常の7倍の速度で識別を実行した.下の表はMNIST(左) とCIFAR-10における最先端手法との比較である.確認してみるとMNISTはDeep L2-SVM (0.87%)に対してBinaryNet 0.96%のエラー率,CIFAR-10はGated Pooling (7.62%)のエラー率に対してBinaryNet 7.62%のエラー率である. Links 論文 http://arxiv.org/pdf/1602.02830v1.pdf コード(Lasagne) https://github.com/MatthieuCourbariaux/BinaryNet コード(Chainer) https://github.com/hillbig/binary_net
  • 37.
    Aude Oliva, AntonioTorralba, “Modeling the Shape of the Scene: A Holistic Representation of the Spatial Envelope”, in IJCV, 2001. 【36】 Keywords: GIST feature, Scene Understanding 新規性・差分 手法 結果 概要 シーン認識に用いるGIST特徴量の提案.画像全体を抽象化し て捉える特徴量を提案した. シーン認識において高精度な特徴量を提案した.GIST特徴量 はBag-of-features (BoF)のベクトルと同等の精度を持つくらい と言われている.非常に高速かつ高精度な画像に対してグ ローバルな特徴量である. 画像全体をブロックに区切り,各ブロックから勾配を抽出してヒストグラム化する. これをRGBの各チャネルで行う.ブロックサイズはx,yごとに4,勾配の量子化は20 なので,次元数は4x4x20x3 = 960 (dims)となる. データセットにはtall buildings, inside city, street, highway, coast, open country, mountain, forest の8シーンが含まれる.GIST特徴量では83.7%の 精度を実現した. Links 論文 http://cvcl.mit.edu/Papers/IJCV01-Oliva-Torralba.pdf プロジェクト http://people.csail.mit.edu/torralba/code/spatialenvelope/ コード https://github.com/yuichiroTCY/lear-gist-python シーンを概略化した例
  • 38.
    Elliot J. Crowley,Omkar M. Parkhi, Andrew Zisserman, “Face Painting: querying art with photos”, in BMVC, 2015. 【37】 Keywords: Painting Retrieval, Face Recognition 新規性・差分 手法 結果 概要 顔画像においてクエリ画像から類似する絵画(自画像?)を検 索する問題.油絵,インク,watercolorなどのペイントやスタイル に関しても考慮する. (1) 表現方法としてFisher VectorsやConvolutional Neural Networks (CNN)を比較 (2) 新規にデータセットを提案 (3) 画像検索におけるreverse problemを解決 右図が提案手法の流れである.あらかじ め特徴量を計算し,クエリと比較することで 絵画検索システムを構築. CNNの表現方法としては VGG Face Descriptor [Parkhi+, BMVC2015]を用いる.VGG Face DescriptorはVGGNet-16をベースにして顔 画像を学習させたネットワークである. あらかじめ計算した特徴との距離を比較す るが,(i) L2距離 (ii) 識別性に優れた次元 削減 (iii) 学習による識別器を考慮する. データの構成や結果については右の 表に示す通りである.顔の検出につ いてはDPMを適用.顔の表現には Fisher VectorかCNNの全結合層を用 いる.次元圧縮に関してはPCAで128 次元に削減,識別器はSVMを用い る.CNN L2 distanceがもっとも精度が 高い. Links 論文 http://www.bmva.org/bmvc/2015/papers/paper065/paper065.pdf 概要 http://www.bmva.org/bmvc/2015/papers/paper065/abstract065.pdf プロジェクト http://www.robots.ox.ac.uk/~vgg/research/face_paint/ デモ http://zeus.robots.ox.ac.uk/facepainting/index?error=face
  • 39.
    Abhilash Srihantha, JuergenGall, “Human Pose as Context for Object Detection”, in BMVC, 2015. 【38】 Keywords: Pose, Context, Object Detection 手法 結果 概要 人物姿勢を手掛かりとして物体を検出する問題.人物の姿勢を 操作する物体自体の手掛りとみなして物体検出を実行する. (a) 入力には画像のみならず,人物の姿勢も含まれる (b) 物体のキーポイントからアピアランス特徴を取得する (c) 人物のキーポイントからアピアランス特徴を取得する (d) 人物姿勢と物体の仮説を統合する (e) Pictorial Structured Model に従い,物体位置のキーポイントを推定 (f) bounding boxを回帰により推定 アピアランス特徴にはHOG特徴量を,RegressorにはRandom Forestsを用いる.人 物姿勢と物体の特徴は下記式により統合する. 実験はETHZ-Activity, CAD-120, MPII cookingに対して行った.最初の2つのデー タセットに関してはKinectにより,MPIIに関してはPictorial Structureにより姿勢を推 定.精度はAUCで算出し,MPIIでは0.41, ETHZ Activityでは0.51, CAD-120では 0.32であった. Links 論文 http://www.bmva.org/bmvc/2015/papers/paper101/paper101.pdf プロジェクト https://ps.is.tuebingen.mpg.de/publications/srik-bmvc-2015
  • 40.
    Seyoung Park andSong-Chun Zhu , “Attributed Grammars for Joint Estimation of Human Attributes, Part and Pose ”, in ICCV, 2015. 【39】 Keywords: 新規性・差分 手法 結果 概要 ・パーツ毎にattributeを推定し,その統計量から頑健な attribute推定をしている.姿勢・attributeともにCNNベースで学 習し,モデルを構築している.Pople Datasetにおいて80.20[%] の精度でattribute推定を可能としている. ・パーツからattibuteを推定している ・階層構造やand-or graphでattribute推定をしている ・Part Relation modelとPart Appearance model を定義し,CNNベースで姿勢推定する. そして,各パーツからAttribute relation model, attribute appearance modelを推定している. ・ Links 論文 : http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/ Park_Attributed_Grammars_for_ICCV_2015_paper.pdf プロジェクト :http://seypark.github.io/pages/jointattr.html
  • 41.
    Georgia Gkioxari, RossGirshick and Jitendra Malik , “Actions and Attributes from Wholes and Parts ”, in ICCV, 2015. 【40】 Keywords: 新規性・差分 手法 結果 概要 姿勢推定からの行動と属性を認識する課題.姿勢推定はDeep Learning版のposeletを提案している.実験ではPASCAL VOC 2012において行動認識し,82.6[%]の精度を出している.また People datasetに対して属性認識した結果,89.5[%]の精度となっ ている. ・従来手法では一枚絵から行動・属性推定していたが,そこに 姿勢推定を付加することで精度向上を図っている.その姿勢推 定は,poseletのDeep Learning版を提案している. 1.R-CNNで人物検出 2.Deep版 poselet(DeepParts)で姿勢推定 3.姿勢毎にCNN特徴を抽出し,行動・属性を推定 左図が行動・属性の認識結果の一例 ・行動認識:82.6[%](PASCAL VOC 2012) Simonyan&ZissermanのVGGNet 16&19Layerには及ばなかったものの,劣らない 性能を出している ・属性認識:89.5[%] (People Dataset) CVPR2014で提案されたPANDAよりも10[%]近い精度向上 Links 論文 : http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/ Gkioxari_Actions_and_Attributes_ICCV_2015_paper.pdf
  • 42.
    Kaiming He, XiangyuZhang, Shaoqing Ren, Jian Sun, “Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification”, in ICCV, 2015. 【41】 Keywords: Parametric ReLU 新規性・差分 手法 結果 概要 Parametric Rectified Linear Unit (PReLU)の提案論文.活性化 関数であるReLUをさらに一般化し,マイナスの方向にも勾配を 持たせる. 計算の複雑性は変えず,精度を大幅に向上させる仕組みを考 案したこと. Deeperモデルに対しても収束するモデルを考案した. 活性化関数を式(1)のように定義した.a_iはnegative方向への勾配を調整する働き を持つ.a_iの値が低い時,Leaky ReLU [Maas+, ICML2013]と同等になる.PReLU では,学習に応じてa_iの値をupdateすることで収束を適応的にする.これはchain ruleに従い,実際の勾配更新は式(4)のmomentumによる.初期値としてはa_i=0.25 を採用. 左表はLReLUとPReLUの比較である.LReLU(a_i=0.25)の時よりもPReLUにより係 数を適応的に更新した方が精度が高くなることが確認できる. ILSVRCのテストセットに対して4.94%のtop-5 error rateを達成(右表).その結果,人 間(5.1%)よりも高い精度で識別することができた.なお,提案手法は3つのモデル (19層, 22層, 22層(カーネル多))を組み合わせてアーキテクチャを構成した. Links 論文 http://research.microsoft.com/en-us/um/people/kahe/ publications/iccv15imgnet.pdf 著者ページ http://research.microsoft.com/en-us/um/people/kahe/ 解説記事 http://qiita.com/shima_x/items/8a2f001621dfcbdac028
  • 43.
    Alessandro Giusti, etal., “Machine Learning Approach to Visual Perception of Forest Trails for Mobile Robots”, in ICRA, 2016. 【42】 Keywords: Drone, UAV, DNN, Forest Trails 手法 結果 概要 森の中での道案内をドローンが行うという論文.進行方向に対 して3方向(直進,右左折)をナビゲートする.結果的に人間の案 内能力を超えたということが判明.IROS Workshop, AAAI16 video competition, ICRA16採択.下図が問題設定を示す. ドローンにマウントされたカメラから進行方向に対して前方の映像を取得する.順 路を3方向(直進,右左折)で教示することで,森からの抜け道まで案内可能. 学習時には3台のヘッドマウントカメラ (視野は30度ごと)から教示画像を取得する. 3方向のうちどの方向が歩けるかかつ正しい道であるかの教師ラベルを与えてお く. DNNは10層の構造である(論文中図5参照).入力は101x101 [pixels]のRGB画像 (101x101x3)で全結合層は1層で200ニューロン,出力層は3ニューロン(3方向が対 応)である.学習には17,119枚の画像を使用,90epoch,学習率の初期値は0.005か らスタートして1epochごとに x0.95. 下図は精度である.比較手法はIttiらのSaliencyを特徴としてSVM識別(Saliency), [12]の手法,2人の人間と比較した.道が見えない場合や開けている環境で道が広 い場合に失敗しやすい傾向にあった.今後精度を向上させるにはドローンカメラの 解像度をあげることがあげられる. Links 論文 http://ieeexplore.ieee.org/stamp/stamp.jsp? tp=&arnumber=7358076 プロジェクト(データセットあり) http://people.idsia.ch/~giusti/forest/web/ YouTube https://www.youtube.com/watch?v=umRdt3zGgpU
  • 44.
    Subhashini Venugopalan, MarcusRohrbach, Jeff Donahue and Raymond Mooney, “Sequence to Sequence – Video to Text ”, in ICCV, 2015. 【43】 Keywords: CNN, VGG, LSTM, RNN, 画像生成分, optical flow,動画生成分 手法 結果 概要 連続する動画を文章にするVideo to Textを提案している.オプ ティカルフロー画像とRGB画像からCNN特徴を抽出している.そ して,RNNの一種であるLSTMで時系列表現し,word化している. 画像とwordtのペアを事前に学習して いる. オプティカルフロー画像とRGB画像か らVGGNetで特徴を抽出している.そし て,RNNの一種であるLSTMで時系列 表現し,word化している. MPII Movie DescriptionとMontreal Video Annotation Datasetで実験し ている.結果は右の表の通り. Links 論文: http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/ Venugopalan_Sequence_to_Sequence_ICCV_2015_paper.pdf コード: https://github.com/jazzsaxmafia/video_to_sequence
  • 45.
    Tian Lan, YukeZhu, Amir Roshan Zamir and Silvio Savarese, “Action Recognition by Hierarchical Mid-level Action Elements ”, in ICCV, 2015. 【44】 Keywords: 新規性・差分 手法 結果 概要 fine-grainedよりも更に細かいfiner-grainedとして,mid-level action elements(MAEs)を提案している.MAEsは背景差分から 行動に関連する部分をセグメントし,複数の時空間解像度で行 動を表現する. 従来の行動認識では,複数の動作が含まれていた.それをよ り詳細に捉えるfiner-grainedを課題として提案している.それを 複数の視点から解決している.例えば,”take food from fridge”では,詳細に書くと ・冷蔵庫の開け閉め ・物体 ・トマトを拭く となる. 【Action Proposals: Hierarchical Spatiotemporal Segments 】 初めに,unsupervisedに時空間のセグメンテーションをする.ビデオから行動や身 体部位,物体などを自動で学習する. 具体的には2010年に提案された”Category independent object proposals”を用い ており,セグメンテーション候補を複数出して結合することで,頑健なセグメントを可 能にしている.それを時系列にプーリングし,階層的に分割している Links 論文 : http://www.cv- foundation.org/ openaccess/ content_iccv_2015/ papers/ Lan_Action_Recognition_ UCF-Sportsで83.6[%] (iDT: 79.2[%]),Hollywood2で66.3[%] (iDT: 63.0[%])
  • 46.
    Stefan Walk, NikodemMajer, Konrad Schindler, Bernt Schiele, “New Features and Insights for Pedestrian Detection”, in CVPR, 2010. 【45】 Keywords: Pedestrian Detection, Self-Similarity Feature 新規性・差分 手法 結果 概要 歩行者検出のため,Color Self-Similarity Feature (CSS; 色の 自己類似性特徴)を提案し,HOGやLBP, HOFとの連結ベクトル を生成,各ベンチマークでの精度向上に寄与した. HOGなどの勾配特徴量ではなく,新たに色の類似性から特徴 を記述し,より高次な特徴を取得することを提案した.各ベンチ マークにおいて精度がさらに向上することを明らかにした. 提案のColor Self-Similarity (CSS)について説明する.CSSではLow-level特徴から さらに踏み込んで色の類似性を考慮し,統計値を用いることでSecond- order特徴 の記述に成功している. 人物の場合には下図のように衣服や肌による色の恒常性が見られるため,類似 する部分から特徴を記述することで,クラス内分散を抑えることができるという戦略 をとる.CSSは領域ごとの類似度をマップ化し,ウインドウ内のSSをコーディングし て特徴とする.実際に使用する場合にはHOGやLBP, HOFとの連結特徴を生成す ることでそれら特徴の補助情報とする. 識別器にはSVMやMLPBoostを用いた.著者らによるとAdaBoostではそれほどの 性能は出ていないという.下図がINRIA, TUD-Brusselsにおける精度であり,概ね 良好な性能を示した.CSSのみではなく,連結ベクトルを用いることがポイント. Links 論文 https://www1.ethz.ch/igp/photogrammetry/publications/ pdf_folder/walk10cvpr.pdf 研究グループ https://www.mpi-inf.mpg.de/departments/computer-vision-and- multimodal-computing/ 参考 http://www.vision.cs.chubu.ac.jp/CV-R/jpdf/StefanCVPR2010.pdf
  • 47.
    Bo Xiong, GunheeKim and Leonid Sigal , “Storyline Representation of Egocentric Videos with an Application to Story-based Search ”, in ICCV, 2015. 【46】 Keywords: Disney, イベント認識, First Person Vision(FPV), summarization 手法 結果 概要 一人称視点動画を用いて,1日のstory lineを生成する課題.動 画から,出てくる人(Actor)・場所(Location)・イベント(Event)・物 体(Object)を認識し,タイムラインを生成する.1日を振り返る 際,あの時だれといたっけ?といった質問をすることで,それに 関連する動画をAnd-Or Graphを用いて抽出する. 【story line生成】 ・Actor検出:Fraunhoferの顔検出 ・位置合わせ(Localization):SIFT+improved Fisher Vector→SVM ・イベント認識:dense SIFT+BoW & dense optical flow → SVM ・物体認識:GIST feature+GMM → SVM 【イベント検索】 ・And-Or Graphを用いて,設問に対して上記の要素を含む部分を抽出 する. Links 論文 : http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/ Xiong_Storyline_Representation_of_ICCV_2015_paper.pdf 動画:http://cs.brown.edu/~ls/Publications/iccv2015_egostory.mp4
  • 48.
    Srikrishna Karanam, YangLi, Richard J. Radke, “Person Re-Identification with Discriminatively Trained Viewpoint Invariant Dictionaries”, in ICCV, 2015. 【47】 Keywords: Person Re-ID, SVD, iLIDS-VID, PRID, CAVIAR4REID 手法 結果 概要 スパースな特徴表現でカメラ間変化に頑健なRe-IDをしてい る.2つのキーチャレンジがある. 1.視点のばらつき:カメラ間で関連する外観変化を学習 2.班別スパースな特徴表現にすることで,ユークリッド距離で 班別可能 これらを改善した結果,最先端の精度となった. 辞書学習:従来の辞書学習と同様だが,viewpointとdiscriminativeに 対して適宜更新し,最適化している. 特徴抽出(実験で使用):YCrCb, HSV, RGB, 12 Schmid, 6 Gabor ・ Links 論文 : http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/ Karanam_Person_Re-Identification_With_ICCV_2015_paper.pdf 著者(コードあり):http://homepages.rpi.edu/~karans3/
  • 49.
    Shuiwang Ji, WeiXu, Ming Yang, “3D Convolutional Neural Networks for Human Action Recognition”, PAMI2013, VOL. 35, NO. 1, pp.221-231. 【48】 Keywords: 3DCNN 新規性・差分 手法 結果 概要 行動認識のための3次元 CNNモデルの提案.また3次元CNNの性能向上のための,モデル正則との組み合わせ 方法を提案している.実験結果では公開データセットでの優れた性能を実証した.TRECVIDデータのベースライン の手法の認識性能を上回った. 3次元CNNの提案 3次元の畳み込みを行うことにより時系列および,外観特 徴をそれぞれ抽出する.提案したアーキテクチャでは,隣 接する入力フレームからの情報の複数のチャネルを生成 し,各チャネルごとに畳み込みとサブサンプリングを行う. すべてのチャネルからの情報を組み合わせた結果を最終 的な特徴表現とする. KTHでの行動認識精度 Links 論文ページ: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6165309 著者ページ: http://www.eecs.wsu.edu/~sji/ (上)行動認識のための3D CNN アーキテクチャ [ 構成 ]1層 : ハードワイヤード層, 3層 : 畳み込み層, 2層 : サブサン プリング層, 1層 : 最終的な結合層 連続フレームから複数の特徴の抽 出 : 動き特徴を抽出するために, 同一の3次元カーネルは入力映像 内の3次元キューブへ重複される. 色分けはそれぞれの重み共有を 示しているが,出力結果ではその 重みを共有しない.
  • 50.
    Keywords : Neural Network, Reducingthe Dimensionality, Restricted Boltzmann machine   Auto encoderは中心層のユニット数が少ないコード層である.この中間層の出 力を用いることでデータの次元圧縮が可能である.Auto encoderの初期値パラ メータは確率的勾配降下法を用いて最適化されるが,最適解から遠い場合に 正常に機能しないという問題がある.本論文では多層NNにおいても有効な初 期値パラメータの導出方法について提案している. 制限付きボルツマンマシン(Restricted Boltzmann machine)(RBM)を用いた 事前学習(pre-training)を導入した,初期値パラメータの最適化手法を提案 している.実験より従来の次元削減手法であるPCAやLSAを用いて次元圧 縮したデータでの分類性能を上回った. 【単層の場合】まずRBMといわれる2層NNを用いて画像を モデル化する.RBMは隠れ層と観測層で構成されている. RBMの隠れ層hと観測層vのEは次式で表される. 【49】 論文ページ: https://www.cs.toronto.edu/~hinton/science.pdf 解説スライド(Slide Share) http://www.slideshare.net/nagayoshi3/ss-44157801 新規性・差分 手法 概要 Links G. E. Hinton* and R. R. Salakhutdinov, “Reducing the Dimensionality of Data with Neural Networks”,  SCIENCE, Vol.313, pp.504-507, 2006. パラメータを学習するために訓練画像を用いる.式(2), を 用いて隠れ層の変数hを求め, 式(3)に代入し観測信号を 求める. パラメータを学習するために訓練画像を用いる.式(2), を 用いて隠れ層の変数hを求め, 式(3)に代入し観測信号を 求める.
  • 51.
    Top : 元画像 2nd : auto encoderによる再構築() 3nd : 6個のコンポーネントを使用したlogis9c PCAによる再構築 4th : 18個のコンポーネントを使用したlogis9c PCAによる再構築 5th : 18個のコンポーネントを使用した標準のPCAによる再構築 6th : 18コンポーネントを使用して標準のPCAによる再構築 • 各手法における平均二乗誤差は1.44, 7.64, 2.45, 5.90 aout encoderの再構築による復元が最も精度が高い Top : 元画像 2nd : 30次元のオートエンコーダによる再構築 3nd : 30次元のlogis9c PCAによる再構築 4th : 30次元の標準のPCAによる再構築 • 各手法における平均誤差は3.00, 8.01, 13.87 auto encoderの再構築による復元が最も精度が高い Top : 元画像 2nd : 30次元のauto encoder(625-2000-1000-500-3による再構成 3nd : 30次元のPCAによる再構成平均二乗誤差は126, 135 結果1
  • 52.
  • 53.
    Kota Yamaguchi, M.Hadi Kiapour, Luis E. Ortiz, Tamara L. Berg, “Retrieving Similar Styles to Parse Clothing”, in PAMI, pp. 1028– 1040, 2014. 【50】 Keywords:Clothing Retrieval, Attribute Recognition, Clothing Parsing, Semantic Segmentation, Pose Estimation 新規性・差分 手法 結果 概要 体型の変化や重ね着に適応する服装解析として,検索に基づく服装解析手法を提案 体型の変化や重ね着に適応する服装解析として,検索に基づく服装解析手法を提案 Links Table 1. 提案手法で使用している局所特徴 Input : probe画像, Output : fashion itemの領域とラベル 1. probe画像との類似画像を検索,タグを予測 2. 画素単位で3種類の信頼値を算出 3. 最も高い信頼値を採用し,その信頼値が出力したfashion   itemのラベルを採用 4. 評価関数より,領域の境界部分を反復平滑
  • 54.
    Hossein Mousavi, SadeghMohammadi, Alessandro Perina, Ryad Chellali, Vittorio Murino, “Analyzing Tracklets for the Detection of Abnormal Crowd Behavior”, in WACV, 2015. 【51】 Keywords: Histograms of Oriented Tracklets (HOT), Anomaly Detection 新規性・差分 手法 結果 概要 時系列の特徴量であるHistograms of Oriented Tracklets (HOT)を提案し,監視カメラからの異常検出に適用.モーション パターンを織り込んだベクトルを記述し,生成的アプローチとし てLatent Dirichlet Allocation (LDA)を,識別的アプローチとして SVMを適用. (i) 異常検出に対して良好な性能を実現 (ii) データセットに対して最先端 (iii) optical flowやdense trajectories, social force modelよりも 高性能 Trackletsを計算後,追跡位置に対するオリエンテーションやその強度を計算して 累積.TrackletsはSIFTによるキーポイントマッチングとKLTによる追跡を行う. 学習データが正常しか集まらない場合にはLatent Dirichlet Allocation (LDA)にて 学習(生成的アプローチ),正常と異常が集まる場合にはSVMにて学習(識別的アプ ローチ). 右表が結果である.異常のみのデー タではLDAを,正常も含むデータでは SVMにより識別する.LDAを使用する 際のトピック数は16,勾配は8方向,11 フレームのウインドウ幅,に設定, Links 論文 https://www.researchgate.net/profile/Hossein_Mousavi6/ publication/ 278673112_Analyzing_Tracklets_for_the_Detection_of_Abnormal_Cro wd_Behavior/links/558295f708ae6cf036c18d0f.pdf 著者 http://profs.sci.univr.it/~swan/
  • 55.