【2016.01】(2/3)cvpaper.challenge2016

cvpaper.challenge
Twitter@CVPaperChalleng
http://www.slideshare.net/cvpaperchallenge
MAILTO: cvpaper.challenge[at]gmail[dot]com

Keywords: Sketch recognition, Convolutional Netural Networks (CNN),
新規性・差分
手法
結果
概要
CNNを用いて人間のスケッチを認識する．
スケッチは人間の直感によるものであり，線画であるということ
や個人の差分が出るということもあり非常に難しいタスクである
が，認識が高精度にできたことに新規性がある．また，Hand-
craftedな特徴量との比較も行い，従来法との差分も示した．
構造は全20層の構成であり，非常にディープな構造を保持す
る．
Hand-crafted特徴のみならず，人間の精度も超えており，250クラス分類
を74.9%で認識できることが判明した．
Qian Yu, Yongxin Yang, Yi-Zhe Song, Tao Xiang, Timothy Hospedales, “Sketch-a-Net that Beats Humans”, in
BMVC, 2015.
【46】
Links
論文 http://bmvc2015.swansea.ac.uk/proceedings/papers/paper007/paper007.pdf
Sketch dataset http://cybertron.cg.tu-berlin.de/eitz/projects/classifysketch/
コード http://www.eecs.qmul.ac.uk/~tmh/downloads.html

Keywords: Event Detection, Convolutional Neural Networks (CNN), Deep Learning
新規性・差分
手法
結果
概要
混雑状況時における教師なし深層学習のフレームワークを提
案し，異常なイベント検出に応用する．
異常検知の分野において教師なし深層学習を初めて導入する
ことや，アピアランス・モーション特徴の相関を取得して
下図の構造はAppearance and Motion DeepNet (AMDN)と呼ばれ，時
系列画像とオプティカルフロー空間から画像を切り抜いてAMDNに入力
する．各チャネルの畳み込みとピクセルレベルでの統合を別に入力と
する(early fusion)．さらには，抽出した特徴量をSVMに通し出力値を統
合(late fusion)して最終的な結果とする．
右の表が結果である．
Dan Xu, Elisa Ricci, Yan Yan, Jingkuan Song, Nicu Sebe, “Learning Deep Representations of Appearance and
Motion for Anomalous Event Detection”, in BMVC, 2015.
【47】
Links
論文
http://bmvc2015.swansea.ac.uk/proceedings/
papers/paper008/paper008.pdf
著者 http://danxu-research.weebly.com/

Keywords: Deep Neural Networks, Deep Perceptual Mapping (DPM), Face Recognition, Thermal to Visible
新規性・差分
手法
結果
概要
顔画像の熱画像から可視画像への変換．
顔画像は照明変動に関係なく，認識できなくてはならない．著
者らは熱画像を可視画像に変換することにより顔画像を実行
できるような提案をした．
Deep Neural Networks (DNN)を識別ではなく，画像のマッピン
グに用いるDeep Perceptual Mapping (DPM)．可視画像と熱画
像の両者の対応付けを学習し，変換するためのアーキテクチャ
とした．
下の表は結果である．熱画像同士だと89.47%であった認識精度も，変換
すると30.36%にまで低下してしまう．これを，提案法であるDPMを用いると
55.36%まで精度が向上する．
M. Saquib Sarfraz, Rainer Stiefelhagen, “Deep Perceptual Mapping for Thermal to Visible Face Recognition”, in
BMVC, 2015.
【48】
Links
論文
http://bmvc2015.swansea.ac.uk/proceedings/papers/
paper009/paper009.pdf
プロジェクト
https://cvhci.anthropomatik.kit.edu/
publications_1096.php
著者ページ
https://sites.google.com/site/saquibsarfraz/

Keywords:
新規性・差分
手法
結果
概要
クラスタリングなどのための距離計算指標の提案．
距離計算がうまくできれば，機械学習のための識別に用いるこ
とが可能であり，詳細画像認識であっても用いることができる．
pairwiseな距離計算のための制約を与えることができ，不等式
制約での最適化を実現した．
下表は提案手法(DistQP)と従来法との比較である．
Arijit Biswas, David Jacobs, “An Efficient Algorithm for Learning Distancees that Obey the Triangle Inequality”,
in BMVC, 2015.
【49】
Links
概要
http://bmvc2015.swansea.ac.uk/proceedings/papers/paper010/abstract010.pdf
プロジェクト

Keywords: Object Proposal, Objectness
新規性・差分
手法
結果
概要
物体検出のための物体候補領域抽出の検討と改善のための
提案．
物体レベルで候補を抽出することができる．これにより精度や
処理速度を同時に向上させるような候補領域の抽出になると
見られる．さらに，この論文では，PASCAL VOCデータに対して
物体レベルでのアノテーションを行った．
物体候補領域抽出に関する検討を行うと共に，新しい指標であ
るLocalization Latencyを提案．
表はPASCAL VOC 2007に対する精度である．
Hongyuan Zhu, Shijian Lu, Jianfei Cai, Guangqing Lee, “Diagnosing state-of-the-art object proposal methods”,
in BMVC, 2015.
【50】
Links
論文
概要
paper011/abstract011.pdf

Keywords: Wide Baseline Stereo, Stereo Vision
新規性・差分
手法
結果
概要
ステレオマッチングの基線長(baseline)が長い場合のマッチング
手法の提案．2眼ステレオについて．
ベースラインが長い場合のステレオマッチングの種々の問題を
解決するためのチャレンジを提案．
ステレオマッチングのアルゴリズムWxBS-MODSやデータセット
(下図)を提案している．基本的なアイディアはマッチングステッ
プの繰り返しにより与えられた画像から視野を統合していくこと
にある．それを信頼できる結果が出るまで繰り返す．検出の閾
値が適応的であることや複数の記述子(RootSIFT,
HalfRootSIFT)を用いていること，複数の検出器が同時に動作
していることも特色に挙げられる．
下の表が結果である．
Dmytro Mishkin, Jiri Matas, Michal Perdoch, Karel Lenc, “WxBS: Wide Baseline Stereo Generalizations”, in
BMVC, 2015.
【51】
Links
論文
プロジェクト

Keywords: Planar Shape, decomposition
新規性・差分
手法
結果
概要
Medial axis decomposition (MAD)を参考にした中心軸表現に関
する提案．
従来では，形状はラインベースのセグメントとしてパーツごとに
分解されていたが，別指標で分離するというもの．
平面形状を複数の側面で分解する．下図は(a) exterior (b) interior (c) cutsの
指標で分解した例である．最初にコーナー抽出，次にコーナーをベースに分解
して形状分析，最後に形状を分離する．
下が複雑な形状の分離結果である．
Nikos Papanelopoulos, Yannis Avrithis, “Planar shape decomposition made simple”, in BMVC, 2015.
【52】
Links
論文
http://bmvc2015.swansea.ac.uk/
proceedings/papers/paper013/
paper013.pdf
プロジェクト
著者ページ
http://image.ntua.gr/iva/iavr/

Keywords: Viewpoint Refinement,
新規性・差分
手法
結果
概要
ビューポイントの修正を，Domain Adaptation (DA)により行う．
人間の得意な点(Coarse annotation)とコンピュータの得意な点
(Fine estimation)も考慮している．
ビューポイントのアノテーションについて，精度を向上させること
ができた．特に，Domain Adaptationは有効であることを示すこ
とができた．
人間は荒いビューポイントのタグ付けは得意であり，コンピュータは荒いタグ
付けがあるとき，詳細な位置合わせが得意である．
また，syntheticデータ(source)からリアルデータ(target)への対応関係も学習
させておき，domain adaptationも行う．
姿勢推定の結果は下の表に示す通りである．
Pau Panareda Busto, Joerg Liebelt, Juergen Gall, “Adaptation of Synthetic Data for Coarse-to-Fine Viewpoint
Refinement”, in BMVC, 2015.
【53】
Links
論文
http://bmvc2015.swansea.ac.uk/proceedings/papers/paper014/
paper014.pdf
概要
abstract014.pdf
著者ページ http://www.iai.uni-bonn.de/~gall/

Keywords: Saliency Prediction, Semantic Segmentation
新規性・差分
手法
結果
概要
Semantic-level features (意味的特徴量)を適用することで顕著
性マップを推定する．
顕著性を推定する際に意味的特徴量を取得することで精度向
上が見込めるということを明らかにした．
さらにはリアルタイムで意味的特徴量の取得を行う．
提案手法は下図．特徴を統合するためにSupport Vector Regression (SVR)を
用いる．Low-level featuresとして，Graph-based visual saliency (@NIPS2007)
を用いる．Regional-level featuresとしては，size, solidity, convexity,
complexity, eccentricityの5つの指標を適用した．Semantic- level featuresで
はラベルの確率，意味的な不確実性，頻度と物体中心座標を考慮した．
左図はPASCAL VOC 2007に対する処理結果である．
Ming Jiang, Xavier Boix, Juan Xu, Gemma Roig, Luc Van Gool, Qi Zhao, “Saliency Prediction with Active
Semantic Segmentation”, in BMVC, 2015.
【54】
Links
論文
概要
papers/paper015/abstract015.pdf
プロジェクト

Keywords: Near-Field Light, BRDF
新規性・差分
手法
結果
概要
複数カメラからの光源とBRDF(Bidirectional Reflectance
Distribution Function)の同時推定問題．
従来法では特に遠距離の光源に対して推定が困難
であったが，提案手法では距離に関係なく(near-
field/distant)，同時推定を実現することができる．
下図が提案手法の流れである．入力は5-16の異なる視点であ
り，反射や光源は不明であるとする．再構成によりこのカメラの
パラメータを取得する．出力として環境マップやクラスタリング
の結果，BRDFの重みが返却される．
Jeroen Put, Nick Michiels, Philippe Bekaert, “Using Near-Field Light Sources to Separate Illumination from
BRDF”, in BMVC, 2015.
【55】
Links
論文
概要
著者 http://www.nickmichiels.com/publications.html

Keywords: Denoising, Guided Filter, Multi-scale Graph-based Guided Filter, Cryo-electron tomography (CET)
新規性・差分
手法
結果
概要
ノイズ除去を実行するGuided Filterを拡張した．複数スケール
やグラフ構造を導入した．
医療用画像においてCTやCET画像は非常に有効な解析の手
段であるが，ノイズを除去する必要がある．ここではGuided
Filterを拡張したMG2Fを提案．
CET画像を入力として，マルチスケールかつグラフ構造で解析
し，ノイズ除去をするフィルタを実行する．下図は処理フローで
ある．
PSNRでは，バイラテラルフィルタが17.49，MG2Fは
17.78であった．右図はLENA画像による結果である．
Shadi Albarqouni, Maximilian Baust, Sailesh Conjeti, Asharf Al-Amoudi, Nassir Navab, “Multi-scale Graph-
based Guided Filter for De-noising Cryo-Electron Tomographic Data”, in BMVC, 2015.
【56】
Links
論文
paper017.pdf
プロジェクト
http://campar.in.tum.de/Chair/PublicationDetail?
pub=albarqouni2015BMVC

Keywords: Discriminative Latent Variable models (LVM),
新規性・差分
手法
結果
概要
LVMの一般化．Generalized LVM(GLVM)．
PositiveとNegativeのクラスの潜在変数を計算し，Positiveの正
解にする確率を最大化，Negativeの誤りを最小化を行う．
GLVMを用いることによりこれを効果的に行うことが差分．
物体の領域を推定するために潜在変数であるpositiveとnegativeの返却値を
用いる．GLVMを用いてPositiveスコアを最大化，Negativeスコアを最小化する
ことで，物体検出の精度を最大限に向上させることが可能である．Positiveを
最大にするだけでなく，Negativeを最小化することにより精度をより高める方
向に働いた．
下図はCat Head Detectionの結果であり，オリジナルのDeformable Part
Model (DPM)とより汎用化したDPM (GDPM)による比較である．
Hossein Azizpour, Mostafa Arefiyan, Sobhan Naderi Parizi, Stefan Carlsson, “Spotlight the Negatives: A
Generalized Discriminative Latent Model”, in BMVC, 2015.
【57】
Links
論文
概要

Keywords: Dynamic Range, In-Camera
新規性・差分
手法
結果
概要
入力画像に対して画素のレンジを変換する．
デジタルカメラに対して，より表
現力があり，自然な風景を撮影
することが可能である．
カメラ内の非線形マッピング処理により，ダイナミックレンジに
変換する手法である．自然画像の統計値とヒストグラム補正を
行う．さらにはコントラストの正規化も施す．
下に処理結果と定量的な評価を示す．
Praveen Cyriac, David Kane, Marcelo Bertalmio, “Perceptual Dynamic Range for In-Camera Image
Processing”, in BMVC, 2015.
【58】
Links
概要

Keywords: Low-rank Approximation, Robust Low Rank Analysis
新規性・差分
手法
結果
概要
3次元再構成や3次元ポイントクラウドなどに用いるLow-ranki(低
ランク)近似によるモデル推定方法を提案する．
ロバスト推定とDecomposition方法の組み合わせによる低ラン
ク近似により，複数のモデルが存在していても頑健なモデル
フィッティングを可能にする．
ロバストM推定とRobust PCAやNon-negative Matrix
Factorization (NMF)などの低ランク近似方法を組み合わせてモ
デルのフィッティングを実現する．
従来法に比べてMisclassification error (ME)が改善した．建物や平面の
違い，物体毎に分離したフィッティングに成功している．
Luca Magri, Andrea Fusiello, “Robust Multiple Model Fitting with Preference Analysis and Low-rank
Approximation”, in BMVC, 2015.
【59】
Links
論文
概要

Keywords: Global Motion Compensation (GMC)
新規性・差分
手法
結果
概要
カメラモーションや人物の動作による，ノイズや余分なフローを
除去する研究．人物行動を含んでいても，効果的にスティッチ
ングができている．
従来ではカメラモーションによるフローの除去のみしか行うこと
ができなかったが，ノイズとなるマッチングも含めて，フロー除
去を行うことができる．
Robust Global Motion Compensation (RGMC)を提案して，クラスタリング
により前景から有力な部分を抽出(foreground suppression)．さらには
Homography verification modelによりキーポイントマッチングのエラーを
最小限にして，マッチング後のエッジの整合性を保持する．過去のフレー
ムからの履歴も観測できるようにすることで認識の精度を向上させる．
下表が誤差を示した結果である．視覚的な結果はYouTube動画参照．
Seyed Morteza Safdarnejad, Xiaoming Liu, Lalita Udpa, “Robust Global Motion Compensation in Presence of
Predominant”, in BMVC, 2015.
【60】
Links
概要
YouTube https://www.youtube.com/watch?v=6PuovQmdP0w
GitHub code https://github.com/safdarne/RGMC

Keywords: Segmentation, Occlusion, Face Recognition
新規性・差分
手法
結果
概要
顔画像を対象として，セグメンテーションの結果からオクルー
ジョン領域を推定して認識するという研究．
オクルージョンを含む際には類似度計算が困難であるが，オク
ルージョンの把握とセグメンテーションされた領域内での認識
により精度が向上する．
入力としてsuperpixelと顔画像を用意する．顔パーツの検出とセ
グメンテーション領域の評価により，オクルージョン領域を把握
する．顔パーツの検出にはDeformable Part Model (DPM)や
Hierarchical Part Model (HPM)を改良したモデルを適用する．
全ての従来法に勝る結果を記録した．また，人間によるアノテーション結
果とも比較した．
Golnaz Ghiasi, Charless C. Fowlkes, “Using Segmentation to Predict the Absence of Occluded Parts”, in
BMVC, 2015.
【61】
Links
論文
paper022.pdf
概要
abstract022.pdf
GitHub https://github.com/golnazghiasi/cofw-train-data-masks

Keywords: Deep Neural Networks (DNN), L1 Regularization
新規性・差分
手法
結果
概要
正則化を用いた全結合層のパラメータの選択．
DNNのパラメータを削減するために，最もパラメータ数が多い
全結合そうに着目し，重み行列(weight matrces)を軽くする．
対角行列(diagonal matrix)Djを層の間(j, j+1)に挿入することで，
L1正則化によるスパース性を導入し，DNNのパラメータ数を削
減することができる(下図)．最終的な識別器はSVMを適用．
右図は誤り重みとmAPの関係
性．PASCAL VOC 2007 dataset
にて実験を行った．
Praveen Kulkarni, Joaquin Zepeda, Frederic Jurie, Patrick Perez, Louis Chevallier, “Learning the Structure of
Deep Architectures Using L1 Regularization”, in BMVC, 2015.
【62】
Links
論文
概要

Keywords: Subspace, Domain Adaptation
新規性・差分
手法
結果
概要
教師なしドメイン学習(unsupervised domain adaptation)に関す
る研究．
部分空間の統合を，ドメイン学習により実現する．さらには，汎
用的なアルゴリズムにするため，教師なし学習にて実現した．
データには1次(平均; mean)や2次(分散; variance)の統計値を用いる．提案
手法はSubspace Distribution Alignment (SDA)であり，上式のS_{s}とS_{t}は
ソースとターゲットの部分ん空間であり，Tは部分空間の基底，Aは部分空
間での分散である．これにより直感的には下図のように2つの部分空間の
識別器を統一して精度を高めることができる．
グラフはOffice-Caltechにおける精度の推移である．提案のSDA-TSが
総じて最も高い精度であることが判明した．
Baochen Sun, Kate Saenko, “Subspace Distribution Alignment for Unsupervised Domain Adaptation”, in BMVC,
2015.
【63】
Links
論文
概要

Keywords: Robust Matching, RANSAC, Hough Pyramid Matching (HPM)
新規性・差分
手法
結果
概要
RANSACのようなロバストマッチング手法の提案．幾何的な関
係性を与える．
幾何的な関係性(Weak Geometric Relations)を与えておくとロ
バストマッチングの精度が向上する．
マッチングした複数対応のペアを取り出して幾何的な情報を与
える．ペアの制約としては，visual word, position, scale,
orientationを与える．
表は提案法と従来法との比較である．OB, Paris, OB+F100K datasetにて
提案手法は最も高いマッチング精度を実現した．比較のためHough
Pyramid Matching (HPM)も実装した．
Xiaomeng Wu, Kunio Kashino, “Robust Spatial Matching as Ensemble of Weak Geometric Relations”, in BMVC,
2015.
【64】
Links
論文
paper025.pdf
概要
abstract025.pdf

Keywords: Person Re-identification, Kernel, View Adaptive, Subspace
新規性・差分
手法
結果
概要
人物再同定(Person Re-identification)のため，学習した特徴を
別の視点で撮影したカメラでも対応できるように特徴を変換す
る．
カーネル学習により，視点変換にも対応可能である．各視点に
それぞれ変換行列を計算することにより精度が向上する．
下図(a)のように，別の性質を持つ特徴空間を同一の変換行列で特徴変換して
も識別性能は上がらない．(b)のようにそれぞれの変換行列を用意することで
特徴の分離性能を高める．ここではKernelized View Adaptive Subspace
Learningとして提案し，カーネルを含む式を繰り返し最適化する．
右は各データセット(VIPeR, iLIDS,
CAVIAR4REID, ETHZ)における結果である．提
案法は有効な精度を達成している．
Qin Zhou, Shibao Zheng, Hang Su, Hua Yang, Yu Wang, Shuang Wu, “Kernelized View Adaptive Subspace
Learning for Person Re-identification”, in BMVC, 2015.
【65】
Links
論文
概要

Keywords: Objectness, ImageNet, Object Detection
新規性・差分
手法
結果
概要
物体候補領域の相対的な関係性を考慮することで密なローカ
ライズができる．
物体候補領域間の関係性を特徴空間から導き出すことができ
る．これにより，密な検出領域の探索が可能になり，より小さな
物体でも検出ができる．
ひとつのターゲットに着目した際に，特徴空間から他のすべて
のサンプルのスコアを参照して位置を評価する．Associative
Embeddingによりカーネルの類似度を計算し，特徴空間や画像
空間の位置付けを評価する．画像空間を参照する際には2つ
のAND/OR領域の関係性を見る．
ImageNetから92000枚の画像を取り出して評価を行った．領域面積の正
答率が75%を超えるものが多く，評価した手法内では最も高い性能を示し
た．右図は物体の検出結果の一例である．
Alexander Vezhnevets, Vittorio Ferrari, “Object localization in ImageNet by looking out of the window”, in
BMVC, 2015.
【66】
Links
論文
概要

Keywords: Abnormal Event Detection, Dictionary Learning
新規性・差分
手法
結果
概要
辞書学習であるBehavior-Specific Dictionary (BSD)を提案して
人物行動映像からの異常を検知する．
事前情報(prior knowledge)無しで辞書内における行動間の相
関性を考慮した辞書学習を行うことや，提案手法を用いて正
常/異常を精度良く分離することである．
提案手法は初期状態の辞書はBSD学習とリファインメントに分類される．
BSD学習では辞書生成のためにK-SVDをもちいて辞書を生成し，動作特徴
を抽出，さらにSpectral Clusteringによりセグメントごとに分類する．それぞれ
のセグメントは基底により再構成され，連結することにより辞書は構成され
る．リファインメントはまれに起こる(異常から取得)特徴を補間して異常値を
検出しやすくする．
表は階段での転倒シーン(異常)を含むデータセット(Anomaly Stairs
Dataset)である．提案手法はトレーニングサンプルが少ない場合やグ
ループの数によらず高い異常検出率を実証した．
Huamin Ren, Weifeng Liu, Soren Ingvor Olsen, Sergio Escalera, Thomas B. Moeslund, “Unsupervised Behavior-
Specific Dictionary Learning for Abnormal Event Detection”, in BMVC, 2015.
【67】
Links
論文
paper028.pdf
著者
http://vbn.aau.dk/en/persons/huamin-ren%28ed2bd66d-6728-46e0-a0f5-
b3d6f26843ec%29.html

Keywords: Semantic Segmentation,
新規性・差分
手法
結果
概要
ピクセル単位でクラスラベルを割り当てる「Semantic
Segmentation」の課題に対しpixel-level (Fully supervised)や
image-level(Wealky supervised)なラベルによる学習を実行す
る．
従来のsemantic segmentationの問題である(1)領域のオーバー
ラップ，(2)クラスのアンバランス(3)クラス間の競合を解決．
精度向上のためにensemble SVMにより全てのクラスを識別するパラメータを
最適化する．calibrationでは，fully supervised/weakly supervisedによるロスが
最小になるようにパラメータを調整することにより，意味的セグメンテーションが
良好になるようにする．calibrationの領域抽出と評価にはselective searchと
AlexNetの特徴量を取得した．R-CNNの要領で物体の評価値を算出．
右の表が実験結果である．Joint
Calibration (JC)の効果により
Platt scaling (PS)のみの精度
(27.7%)に比べて格段に良くなっ
ている(55.6%)．従来法と比較し
ても有意な差が見られた．
Holger Caesar, Jasper Uijilings, Vittorio Ferrari, “Joint Calibration for Semantic Segmentation”, in BMVC, 2015.
【68】
Links
論文
paper029.pdf
概要
abstract029.pdf
著者 http://www.it-caesar.de/en/

Keywords: Camera Elevation Estimation, Alps100K dataset
新規性・差分
手法
結果
概要
シングルショットから撮影位置の標高を推定する問題．
Alps100K datasetも提案している．
画像による情報から標高を判定できる仕組みを提案したことが
新規性としてあげられる．新しい設定としてデータセットを公開
したこともコントリビューションである．
Alps100K datasetには屋外におけるGPS・標高・EXIFの情報が含まれており，
丘や山の頂上の環境においてデータを取得した．まずはPlace205 datasetによ
り学習されたCNNを適用した．CNNは5層の構成，活性化関数はReLU，max-
pooling，また，sparse high-dimensional BoWも適用する．
Alps100K datasetにおいて実験した結果は以下の通りである．エラーがm
で示されており，提案のBoW+CNNは約500m程度の誤差である．
Martin Cadik, Jan Vasicek, Michal Hradis, Filip Radenovic, Ondrej Chum, “Camera Elevation Estimation from
Single Mountain Landscape Photograph”, in BMVC, 2015.
【69】
Links
概要
プロジェクト http://cphoto.fit.vutbr.cz/elevation/

Keywords: Deep Neural Networks (DNN), Parameter Pruning
新規性・差分
手法
結果
概要
CNNはパラメータ数が多く，中には冗長な表現もあることから，
それら冗長なニューロンをカットすることによりパラメータ数の
削減に貢献．
ニューラルネットワークにおいて，冗長な表現
をカットすることに成功した．パラメータのカット
する割合を自動で調整することもできている．
似たような経路を通るニューロンをカットする．下図ではa1とa4が同じ構造を
持っており，一方のみ残すことで冗長な表現を省くことができると主張．ニュー
ロンをペアとして類似度を計算し，計算された類似度よりも小さいようなら冗長
な表現としてニューロンを省くこととする．saliency value s(i,j)よりどの程度
ニューロンをカットすればよいのかも決定可能である．
右はAlexNetによるパラメー
タカットの結果である．
ILSVRC2012 validationを用
いており，カットなしの精度は
57.84%である．60%程度圧縮
しても48%の精度を実現して
いることがわかる．
Suraj Srinivas, R. Venkatesh Babu, “Data-free Parameter Pruning for Deep Neural Networks”, in BMVC, 2015.
【70】
Links
論文
概要
著者
https://scholar.google.co.in/citations?
user=J2JWgKgAAAAJ&hl=en

Keywords: Pedestrian Detection, Convolutional Neural Networks (CNN), Cascade
新規性・差分
手法
結果
概要
CNN識別器をカスケード構造にすることで，深層学習を用いて
も15fpsで歩行者検出を実現する．Google Researchの論文であ
り，自動運転のための歩行者検出の取り組みと見られる．
AlexNetの提案者であるAlex Krizhevskyも共著．
従来のCNN識別器(e.g. AlexNet)では画像全体を探索するため
に膨大な時間を要する．(VGAサイズの画像にてラスタスキャン
では約30万回探索)カスケード構造にして高速化し，CNN識別
器でもリアルタイム検出できることが新規性．
下記がカスケード構造の1st step CNN構造．構造があまりディープでなくても
十分であることが判明した．また，全結合層は必要であるが，パラメータ数は
多くなくても(512)検出精度は出る．出力層は1であり，0/1に置き換えることで
歩行者/非歩行者を判断．
Caltech pedestrian detection
benchmark にて26.2%の平均検
出エラー率を達成．
Anelia Angelova, Alex Krizhevsky, Vincent Vanhoucke, Abhijit Ogale, Dave Ferguson, “Real-Time Pedestrian
Detection With Deep Network Cascades”, in BMVC, 2015.
【71】
Links
論文 http://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/43850.pdf
概要 http://bmvc2015.swansea.ac.uk/proceedings/papers/paper032/abstract032.pdf

Keywords: fingettip detection, convolutional neural networks (CNN)
新規性・差分
手法
結果
概要
指先の検出に関する研究．特に回転に対するロバスト性を高
めた．
CNN特徴ベースの手法である，Deep Derotationに
より回転に対してロバストな推定を可能とし，高精
度な指先推定のための前処理とした．
まずはCNNベースの特徴学習により回帰モデルを構築し，グローバルな手部
の回転推定を行う．この処理はDeep Derotationと呼ばれ，指の領域を推定し
やすくするための前処理である．下図のような仕組みで指先推定のための
データを集める．指先の識別にはRandom decision treeによる識別モデルを適
用した．
Aaron Wetzler, Ron Slossberg, Ron Kimmel, “Rule of thumb: Deep derotation for improved fingertip detection”,
in BMVC, 2015.
【72】
Links
概要
プロジェクト http://www.cs.technion.ac.il/~twerd/HandNet/

Keywords: LBP, Happiness Intensity Analysis
新規性・差分
手法
結果
概要
Riesz-based LBPの特徴抽出によりグループ写真の顔画像か
ら感情認識を行う．
顔画像からの感情推定に関して，特徴抽出とgroup expression
model (GEM)は重要な課題であり，双方の解決に取り組んだ．
1次のRiesz変換では回転不変な解析を，2次の変換では画像の構造を解析
できるようになる．両者の変換を用いるが，3種類の画像スケールからlog-
Gaborフィルタにより特徴抽出を実施する．また，XY, XZ, YZのRiesz変換によ
り表現された空間からLBP抽出を行う．これら特徴から画像内の局所的・大
域的な顔の関係性を判断するためにContinuous Conditional Random Fields
(CCRF)を用いる．
表は実験結果であり，数値は平
均誤差を示す．各特徴や各モデ
ルweighted GEMやlatent dirichlet
allocation (LDA)と比較を行い，提
案のRVLBPとCCRFによる推定が
最も精度が良かったとしている．
Xiaohua Huang, Abhinav Dhall, Guoying Zhao, Roland Goecke, Matti Pietikainen, “Riesz-based Volume Local
Binary Pattern and A Novel Group Expression Model for Group Happiness Intensity Analysis”, in BMVC, 2015.
【73】
Links
論文
概要

Keywords: Sign Language Recognition, Metric Learning, HOG, Signer Adaptation
新規性・差分
手法
結果
概要
Metric Learningを手話認識に用いる．Signer Adaptationも同時
に提案．
手話認識のためのMetric Learningや特徴量抽出，Signer
Adaptationの提案．
1.  Weakly supervised metric learning (WSML)の提案：クラスタリングと
多様体の制約を同時に実行
2.  Signer adaptationの実装と精度の向上
3.  Fragmentベースの特徴量の提案：手部のセグメンテーション，キーフ
レーム選択，HOG特徴量の取得
表は他のMetric Learningとの差
分である．弱教師あり学習であ
るにも関わらず高い精度を実現
した．
Fang Yin, Xiujuan Chai, Yu Zhou, Xilin Chen, “Weakly Supervised Metric Learning towards Signer Adaptation for
Sign Language Recognition”, in BMVC, 2015.
【74】
Links
論文
概要
プロジェクト

Keywords: Hashmod, Linemod, Object Detection, 3D Recognition
新規性・差分
手法
結果
概要
LineMOD(x)に対してハッシュ関数にてバイナリ変換することに
より，探索を高速化する．
バイナリハッシングによる高速化により，探索する物体数が増
加してもsublinearの複雑性にて計算が可能であるため非常に
有効である．
LineMODの計算と，バイナリハッシング関数をLineMODのベクトルに処理す
る．Randomized ForestsによりハッシングするTree-based selection (TBS)や
同物体の類似する(が少し異なる)視点を異なる枝分かれにするTree-based
selection with view scattering (TBV)を提案する．TBVはノードの分散を小さ
くすることで，ノイズなどにより意図したノードに行くことを防ぎ精度を向上さ
せている．
下表はTBVとLineMOD，DTT-3Dの物体認識データセットにおける比較結
果である．精度を損なわずなおかつ非常に高速に物体認識ができている
ことを示す．
Wadim Kehl, Federico Tombari, Nassir Navab, Slobodan Ilic, Vincent Lepetit, “Hashmod: A Hashing Method for
Scalable 3D Object Detection”, in BMVC, 2015.
【75】
Links
論文
paper036.pdf
概要
abstract036.pdf
プロジェクト
http://campar.in.tum.de/Chair/PublicationDetail?
pub=kehl2015bmvc
著者 http://campar.in.tum.de/Main/WadimKehl
LineMOD実装
http://wg-perception.github.io/ork_tutorials/tutorial03/tutorial.html

Keywords: Multi-Task Learning, One-Shot Learning, Event Detection
新規性・差分
手法
結果
概要
Multi-task Learning・One-Shot Learningによるイベント認識．
Multi-task学習の新しい手法であるimplicit inter-task
relevance estimationの提案，One-shot Learningのフレーム
ワークの中で実装されていることが新規性．
Multi-task Learningにより大規模映像データベースから意図し
たイベントのフレームを検出する．あるイベントからそれに類似
するイベントを検出する問題にする．
TRECVid MED. datasetやVine datasetに対する精度が下記である．複雑
なイベントに対しても検索が可能になったと主張．
Wang Yan, Jordan Yap, Greg Mori, “Multi-Task Transfer Methods to Improve One-Shot Learning for
Multimedia Event Detection”, in BMVC, 2015.
【76】
Links
概要

Keywords: RGBD, Activity Recognition
新規性・差分
手法
結果
概要
日常生活を想定して高速な行動検出を実現する．RGB-Dセン
サから行動検出を実現するSpatio-temporal Activity Cells
(STAC)と呼ばれる手法も提案した．
RGBDの入力に対して高速かつ高精度な行動
検出手法STACを提案しただけでなく，従来法
よりも高精度な行動認識を実現．
Refinementされた距離画像を入力とする．背景を切り抜くため
に，HOGとHistograms of Depth (HoD)を用いて適応的に背景を
モデリングし，active/inactiveな背景であるかを計算する．行動
認識のための特徴記述にはHOG, Histograms of Surface
Normal Projections (HOSNP), 3D trajectoiresを採用した．
表が実験結果である．HOG, HOSNP, HOG
+HOSNP, HOG+HOSNP+3D Traj.の結果が
示されている．IDT[2]と比較しても優位な結
果が出ている．
Stavros Tachos, Konstantinos Avgerinakis, Alexia Briasouli, Ioannis Kompatsiaris, “Appearance and Depth for
Rapid Human Activity Recognition in Real Applications”, in BMVC, 2015.
【77】
Links
論文

Keywords: Wearable Camera, Tracking
新規性・差分
手法
結果
概要
Visual Indoor Localizatioin (VIL)の問題をウェアラブルカメラで
実現する．
CBIRアルゴリズムのみならず，LG-RGPSを追
跡に用いることで，困難な位置特定状況にも関
わらず最先端の結果を得ることができた．
アパートの部屋で撮影し，位置と対応付けされている6,000枚の画像を含んだ
データベースを提案する．下図の青線は俯瞰画像上の位置に対応付けられて
いる．ローカライズ問題を対象物体のトラッキング問題と捉えることでContent
Based Image Retrieval (CBIR)アルゴリズムを動画に適用する．トラッキングの
問題にはRao-Blackwellized Particle Smoother on Lie Groups (LG-RGPS)を追
跡に適用する．
表は6種類のデータ(GO80, ...GO85)にて試
した結果である．数値はRMSEを示してい
る．提案手法が最も位置付けのエラー率
が小さい手法であることが実証できた．
Guillaume Bourmaud, Audrey Giremus, “Robust Wearable Camera Localization as a Target Tracking Problem
on SE(3)”, in BMVC, 2015.
【78】
Links
著者 https://sites.google.com/site/guillaumebourmaud/

Keywords: Segmentation, Audio
新規性・差分
手法
結果
概要
視覚的な手がかりだけでなく，オーディオの情報も用いることで
物体や材質のカテゴリ分類やセグメンテーションを行う論文．
材質のカテゴリ分類やセグメンテーションに対してオーディオの
情報も導入することにより精度を向上させることができると実証
した．
物体やその材質の同時推定のためにTwo-layer CRFを適用する．下式を最
適化するが，物体(O)は画像入力，材質(M)は画像とオーディオの入力，同時
エネルギー関数(J)も同時に最適化．
オーディオ情報の追加により，材質に対する平均IoU (intersection-
over-union)が3.5%上昇した．また，両者の同時エネルギー関数最適化に
より物体の識別率が4.1%上昇した．
Anurag Arnab, Michael Sapienza, Stuart Golodetz, Julien Valentin, Ondrej Miksik, Philip H. S. Torr, Shahram
Izadi, “Joint Object-Material Category Segmentation from Audio-Visual Cues”, in BMVC, 2015.
【79】
Links
論文
paper040.pdf
概要
abstract040.pdf
データセット
http://www.robots.ox.ac.uk/~tvg/projects/AudioVisual/

Keywords: Deep Face, CNN
新規性・差分
手法
結果
概要
静止画，動画問わずCNNベースの顔認識を提案．
End-to-Endoでの顔認識アーキテクチャを構成し，大
規模データベースを適用した．
半自動で大規模データにアノテーションし，
非常に深いニューラルネットのアーキテク
チャを構築した．また，学習方法についても
確立し，現存する顔認識の識別きよりも高
い性能を示す．
基本的なネットワークアーキテクチャはVGGNetを適用したが，詳細は表に示
す．
すべてのデータにおいて従来法を上回っているわけではないが，特にYoutube Faces Dataset
においては困難な状況にも関わらず高い精度を実現した．
Omkar M. Parkhi, Andrea Vedaldi, Andrew Zisserman, “Deep Face Recognition”, in BMVC, 2015.
【80】
Links
概要
プロジェクト(コードあり) http://www.robots.ox.ac.uk/~vgg/software/vgg_face/

Keywords: Optical Flow
新規性・差分
手法
結果
概要
オプティカルフローの改良に関する研究．LDOFやDeepFlowと
の違いは階層的マッチングにしている点．
オプティカルフローの初期マッチングから繰り返しにより誤差を
修正する最適化を考案し，既存の手法よりもマッチングの精度
を高められることが判明した．
提案手法の強みは対応点マッチングのためのリファインメントである．(1) グ
リッドがデンスである (2) 正規化によるあいまい性を繰り返し修正 (3) 外れ値
を補正する．上式のエネルギーを最小化する問題であり，Emは位置関係によ
るマッチングコスト，Eaはアピアランスの類似度，
MPI Sintel training datasetに対して評価し，提案手法が対応の精度が優
れていることを実証した．
Benjamin Drayer, Thomas Brox, “Combinatorial Regularization of Descriptor Matching for O”, in BMVC, 2015.
【81】
Links
概要
プロジェクト
http://lmb.informatik.uni-freiburg.de/Publications/2015/DB15c/

Keywords: DSLR camera
新規性・差分
手法
結果
概要
3Dレンダリングのための手法を提案．Discrete Light Source
Estimation (DSLR)を提案した．
離散的な光源を推定するための手法を新規に提案した．複数
カメラの設定において誤差の推定を最小限にすることや，特定
の物体に限定しないレンダリング方法を提案する．
最初に，三角測量のための光源推定を行う．さらには方向の推
定やRadiometric (放射測定)を，二乗誤差推定により近似す
る．キャリブレーションやレジストレーションは二段階構成であ
り，左図(b)のキャリブレーションパターンによるキャリブレーショ
ン+バンドルアジャストメント，さらには観測したカメラにおいて位
置合わせをした上で3次元の位置推定．
実験結果を下の表や図に示す．表では推定・計測のエラー率を，図では
実際の処理結果を示す．
Farshad Einabadi, Oliver Grau, “Discrete Light Source Estimation from Light Probes for Photorealistic
Rendering”, in BMVC, 2015.
【82】
Links
論文
http://www.dfki.de/lt/bibtex.php?
id=7915
プロジェクト

Keywords: Person Re-identification, Dictionary Learning,
Laplacian正規化
新規性・差分
手法
結果
概要
Person Re-IDの問題について，Unsupervisedな学習により良好
な識別器を生成する．Dictionary Learningの枠組みを使用．
現在までの手法は完全なる教師あり学習であるが，スケーラビ
リティの問題(認識するべき人数が増えた時に対応できない)か
ら，教師なし学習にて問題解決を図る．
複数カメラのそれぞれから取得したベクトルを繰り返し学習により最適化．特
にLaplacian正則化を用いて辞書学習を実行する．

この式に対して「Yを固定，Dを最適化」逆に「Dを固定，Yを最適化」の繰り返し
により，辞書をカメラ間のベクトル変化に対応するため最適な値にする．カメラ
間の辞書学習には，基本的なLASSO問題が発生する．L2正則化の代わりに
L1正則化を用いてこれを最適化する．特徴としてLBPやHOG, Colourの統合ベ
クトルを実装した．
Datasetとしては，VIPeR，PRIDを適用し，評価方法としては
CMC(Cumulative Matching Characteristics, 上位1位からの累積値をグラ
フ化)を用いた．下図が従来法との比較である．
Elyor Kodirov, Tao Xiang, Shaogang Gong, “Dictionary Learning with Iterative Laplacian Retgularisation for
Unsupervised Person Re-identification”, in BMVC, 2015.
【83】
Links
論文
http://www.eecs.qmul.ac.uk/~sgg/papers/
KodirovEtAl_BMVC2015.pdf

Bronislav Pribyl, Pavel Zemcik, Martin Cadik, “Camera Pose Estimation from Lines using Plucker Coordinates”,
in BMVC, 2015.
【84】
Keywords: Camera Pose Estimation, Plucker Coordinates
新規性・差分
手法
結果
概要
3次元空間におけるカメラの姿勢(位置やカメラ向き)を推定する
問題であり，2D-3Dの対応関係を求める必要がある．さらには
特徴がLineである時(Perspective-n-Line; PnL)を考える．
線形的なPnL問題の解決を行った．従来より高いオーダーでの
推定を高速に計算する，初期化の労力を軽減し，ノイズの影響
を低減したフレームワークである．
下図は3D直線の射影である．3D直線Lはvにより方向が定義されている．uが平
面に対する法線である．lが画像平面にて観測される直線である．カメラ座標Cに
従う．回転行列はR 3x3 や R[-t] 3x3 にて構成される．6つのカメラパラメータを推
定するが，これをHartleyらのDirect Linear Transformation (DLT)により解決．少
なくとも9つの直線が必要であり，その組み合わせによりRANSACを実行，SVDな
どによりカメラパラメータを推定．
カメラの回転角の誤差を下図に示す．
Links
論文
http://cadik.posvete.cz/papers/bmvc15LnP/
BMVC2015id125_Camera-Pose-Estimation-from-Lines-using-
Plucker-Coordinates.pdf

Zhaopeng Cui, Nianjuan Jiang, Chengzhou Tang, Ping Tan, “Linear Global Translation Estimation with Feature
Tracks”, in BMVC, 2015.
【85】
Keywords: Feature Tracks, SfM
新規性・差分
手法
結果
概要
Structure-from-Motion (SfM)ではカメラオリエンテーションとポ
ジションの推定であるが，本稿ではグローバルな位置推定に取
り組む．
Collinearなモーションや脆弱なアソシエーションデータに対して
マッチングを的確に行い，縮退も避けることが可能．
複数のカメラを用いて，基本行列の推定や特徴点のトラッキングをする．従来法
[23]を用いてカメラの組camera-tripletを生成する．さらにそのカメラ拘束を用い
てシーンから取得した余分な点を除去する．線形式により特徴点をトラッキン
グ．左図は2つのカメラの対応関係，右図は従来との比較を示す．
構成の結果を下表に示す．
Links
論文 http://arxiv.org/pdf/1503.01832v2.pdf

Raj Kumar Gupta, Megha Pandey, Alex YS Chia, “Learning Discriminative Visual N-grams from Mid-level Image
Features”, in BMVC, 2015.
【86】
Keywords: N-gram, Mid-level Features
新規性・差分
手法
結果
概要
N-gram行列を適用し，複数の視覚的特徴を組み合わせる手法
を提案する．これによりMid-levelな特徴表現になっていると主
張．
Categorical Decision Trees (CDT)によりvisual words間の関係
性を考慮したMid-level特徴へと拡張することが可能である．
SIFTやコードワード化(e.g. Bag-of-features, Fisher Vectors)により特徴を表現す
る．さらにCategorical Decision Trees (CDT)によりvisual words間の関係性を記
述する．さらにSpatial Pyramid Represetation (SPR)によるスケールへの対応を
施して識別とする．
Graz-01, INRIA horse images, UIUC 8-sportsやLand-Use datasetにおい
て実験を行った．Improved Fisher Vectorを用いた特徴ベクトル表現を用
いた結果が以下である．
Links
論文
著者 http://www.cs.unc.edu/~megha/

Johannes Niedermayer, Peer Kroger, “Minimizing the Number of Keypoint Matching Queries for Object
Retrieval”, in BMVC, 2015.
【87】
Keywords: Keypoint Matching, kNN, BoVW
新規性・差分
手法
結果
概要
クエリとなるキーポイントをいかに効率よくするかに焦点を当て
た研究．計算量を減らすために信頼度によりランキング付けす
る．
Match Expansion (下図)に工夫が見られる．
手法の概略図を下に示す．特徴点/特徴量の取得(BinBoost and ORB)や特徴のラ
ンク付け(Non-Maximal Suppression, Decision Trees)，マッチング(kNN)，などを経
てスコア付けを行う．
下図が結果である．SIFT, BinBoostのマッチングに対してランク付けの評
価を行った例である．データセットにはOxford5k，パラメータkの数値は
100に設定した．
Links
論文 http://arxiv.org/pdf/1412.5808v3.pdf
プロジェクト

Sungmin Eum, Hyungtae Lee, David Doermann, “JH2R: Joint Homography Estimation for Highlight Removel”, in
BMVC, 2015.
【88】
Keywords: Highlight Removal
新規性・差分
手法
結果
概要
照明が原因で反射・発生する白領域(Highlight)を除去する．単
一画像では白とびした領域を復元することは困難であるため，
複数の画像を用いることで的確に復元する．
白とび領域を除去する手法について，2視点の画像から
Homographyを推定し，ピクセル単位で復元することに成功し
た．
少なくとも2視点から撮影された2枚の
画像が必要である．対応点のマッチン
グからHomographyを推定する手法は
Joint Homography Estimation for
Highlight Removal (JH2R)として提案．
ピクセルレベルでHighlightを推定し，
Posisson Blendingにより画像の復元を
行う．
右図は提案法を含
む5つの手法を比較
した結果である． Links
論文
http://www.bmva.org/bmvc/2015/papers/paper049/index.html
プロジェクト

Zongbo Hao, Linlin Lu, Qianni Zhang, Jie Wu, Ebroul Izquierdo, Juanyu Yang, Jun Zhao, “Action Recognition
based on Subdivision-Fusion Model”, in BMVC, 2015.
【89】
Keywords: Subdivision-Fusion Model, Action Recognition
新規性・差分
手法
結果
概要
Subdivision-Fusion Model (SFM)により分散の大きいクラスに対
して適切に統合する．行動認識の制度自体を向上させる．
複数の行動認識の課題--複雑環境下での人物のローカライ
ズ，照明の変動，動的な背景--においてクラス内の分散が大
きくなった場合でも行動認識の精度を向上させる．

特徴空間に対してクラスタリングを行うが，本論文ではSparse
Subspace Clustering (SSC)を用いる．クラスタ数を決定させる
ためのルールとしては(1)特徴分布のオーバーラップを考慮す
る (2) クラスのバランスを考慮する．

Hollywood2 (79.4%)，YouTube (82.5%)，KTH (94.0%)，UCF50 (76.9%)という
数字を記録した．
Links
論文 http://arxiv.org/ftp/arxiv/papers/1508/1508.04190.pdf
プロジェクト

Kota Yamaguchi, Takayuki Okatani, Kyoko Sudo, Kazuhiko Murasaki, Yukinobu Taniguchi, “Mix and Match: Joint
Model for Clothing and Attribute Recognition”, in BMVC, 2015.
【90】
Keywords: Cloth Recognition, Attribute Recognition
新規性・差分
手法
結果
概要
ファッション分野での服装やその属性認識について研究する．
ファッションにおける共起関係をConditional Random Field
(CRF)により記述する．
従来では姿勢推定を行うことにより局所的な評価を行うことが
多かったが，本論文ではCRFベースの検出に置き換えることで
姿勢推定に依存せず局所領域からの属性認識を実施した．ま
た，ChictopiaやDress datasetに対して新規にファッション認識
を行った．
Joint Detection: CRFベースの検出を行う．Joint Detectionとは下図のように部位
ごとに検出することである．局所的な評価により，部分ごとに属性を解析する．同
時確率にはLog-linear modelを，Unary項にはlogistic regression，さらにBinary項に
はNormalized Person correlation(共起関係を記述)を適用した．ファッションの属性
解析や共起関係を記述可能である．
Deterministically Localized Feature: 姿勢推定に依存することなく，局所的な領域
を与えることで属性を認識する．矩形内ではAlexNetの第7層より中間特徴(4096次
元)を抽出し，Logistic Regressionの入力とする．
Chictopia datasetに対しては自動で服装のタグ付けを，Dress datasetには属性認識を行った．表は領域の検
出精度と属性認識の精度である．従来のStyle-descriptorや，身体全体の評価であるCNN-Global，局所領域
からの特徴抽出であるCNN-Local，さらにCRFを適用して共起関係を記述したCNN-Local- CRFを比較した．
Links
論文
http://vision.is.tohoku.ac.jp/
~kyamagu/papers/
yamaguchi2015mixmatch.pdf
著者
http://vision.is.tohoku.ac.jp/
~kyamagu/ja/

ご質問・コメント等ありましたら，cvpaper.challenge@gmail.com / Twitter@CVPaperChallengまでお願いします．

【2016.01】(2/3)cvpaper.challenge2016

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to 【2016.01】(2/3)cvpaper.challenge2016

Similar to 【2016.01】(2/3)cvpaper.challenge2016 (6)

【2016.01】(2/3)cvpaper.challenge2016