18. Mohamed E. Hussein and Mohamed A. Ismail, “Visual Comparison of Images Using Multiple Kernel Learning for
Ranking”, in BMVC, 2015.
【16】
Keywords: Attribute, Visual comparison of images
新規性・差分
概要 順位付け問題のために一般化されたカーネル学習のフレー
ムワークの提案.提案手法は,元データを記述するために
最適な特徴統合を提示する.実験結果より,提案したフレ
ームワークが最先端手法の性能と処理時間を著しく上回っ
た.
複数のカーネル学習を画像比較へ応用したフレームワ
ークである。順位付け複数カーネル学習(Rank MKL)の
提案.提案手法では複数特徴を統合する 際に特徴ごと
のカーネ
Links
Paper :
http://www.bmva.org/bmvc/2015/papers/paper095/abstract095.pdf
Author :https://sites.google.com/site/mhelhoseiny/
提案するフレームワークの概要: はじめに画像より複数の特徴を
抽出する.次に特徴ごとのカーネルを用いて複数カーネル学習よ
り,特徴統合のための特徴ごとのカーネルの重みを最適化する.
最後にRank MKLにより画像比較を行う.
ルの重みを最適化することで,画
像特有の記述を生成する.よって
以下の式中のカーネルの重みdを最
適化する.
19. Tong Xiao, Hongsheng Li, Wanli Ouyang, Xiaogang Wang, “Learning Deep Feature Representations
with Domain Guided Dropout for Person Re-identification”, in CVPR, 2016.
【17】
Keywords: Person Re-ID, Domain Adaptation, Domain Guided Dropout
新規性・差分
概要
人物再同定のための特徴学習とドメイン変換に関する研究である.ImageNet
では膨大なデータが存在して効果的な特徴学習を行うことができるが,人物
再同定ではその規模のデータが揃うわけではない.その一方で,近年データ
セットの種類が増えてきているので,公開されている全てのRe-IDを統合する
ことで特徴学習し,さらに重みを調整することでタスクに応じて識別器を構
成することができると主張した.
・データセット間に共通した特徴を学習し,Fine-tuningの際にDomain
Guided Dropoutを適用し,本提案のような特徴学習を効果的に行えることが
判明した.このDropoutによりタスク転換の際に必要ないタスクの重みを効
果的に除去することができる.
・Domain Guided Dropoutによりシンプルかつ効果的に,各データに対する
State-of-the-artを達成した(図や表より).
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_
2016/papers/Xiao_Learning_Deep_Featur
e_CVPR_2016_paper.pdf
コード
https://github.com/Cysu/dgd_person_reid
20. Waqas Sultani, Mubarak Shah, “What if we do not have multiple videos of the same action? - Video
Action Localization Using Web Images”, in CVPR, 2016.
【18】
Keywords: Action Detection, Weakly Supervised Learning, Web Images
新規性・差分
概要
Web画像を用いた学習による,動画像からの行動検出に関する研究である.従
来ではある程度拘束があるビデオを用いるが,本論文では拘束がなく長時間の
ビデオからいかに人物行動のローカライズを行うかという設定で研究する.学
習にはキーワードベースの画像検索により収集した画像を,テスト時には行動
候補領域を抽出し,Web画像から収集した画像により学習された識別器により
行動検出を実行する.候補領域の抽出には[Cho+, CVPR15]を用いた.(1) キー
フレームからの候補領域やその特徴,(2) 相関行列とその平均の誤差,(3) 相関
行列の値を最小化するように条件付けして最適化.
・大規模な学習データが揃わずとも,キーワードベースに
より検索されたweb画像により学習した識別器でも高精度
な行動検出ができることが判明した.
・右下の表のように,UCF-Sportsデータに対して良好な
性能を実現した.THUMOSに対しても精度を算出した.
Links
論文
http://crcv.ucf.edu/papers/cvpr2016/CVPR16_Waqas_AL.pdf
ビデオ https://www.youtube.com/watch?v=99FE9XOeX-k
候補領域抽出 [Cho+, CVPR15]
http://www.di.ens.fr/willow/pdfscurrent/cho2015.pdf
21. Jingjing Meng, Hongxing Wang, Junsong Yuan, Yap-Peng Tan, “From Keyframes to Key Objects: Video
Summarization by Representative Object Proposal Selection”, in CVPR, 2016.
【19】
Keywords: Keyframe, Keyobject
新規性・差分
概要
From Keyframes to Key Objectsというタイトルのとおり,動画像中の
キーフレームから候補領域の抽出により,重要な物体位置を抽出する.
フレームワークは(1) キーフレーム検出や物体候補領域の抽出 (2) 候補
領域のリファインメント (3) 最適化の問題を勾配近似問題に置き換え,
Fast Iterative Shrinkage Thresholding Algorithm (FISTA)により解決す
る.
・キーフレームのみならず,そのフレーム内の重要物体を
抽出することでより詳細な情報にアクセス可能となる.
・FISTAを提案して辞書学習時における選択の勾配近似問
題を解決した.
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Meng_
From_Keyframes_to_CVPR_2016_paper.pdf
34. Kwang Moo Yi, Yannick Verdie, Pascal Fua, Vincent Lepetit, “Learning to Assign Orientations to Feature
Points”, in CVPR, 2016.
【32】
Keywords: orientation, CNN
新規性・差分
手法概要
・従来は人手で決めていたSIFTなどの局所特徴のオリエン
テーションの基準を、CNNで学習して求めた。また、
ReLU, maxout, and PReLUなどのレイヤーを一般化したも
のを提案し、性能向上を確かめた。
・CNNによるオリエンテーション学習
・Generalized Hinging Hyperplanes (GHH)をベースとした
新しいactivation function
・Siamese Networkのように画像パッチを2枚ペアで入力し、それぞれに対
してCNNが出力したオリエンテーションのもとでのデスクリプタの距離=損
失を最小化する
Links
プロジェクト
https://kmyi.wordpress.com/2016/07/12/learning-to-assign-
orientations-to-feature-points/
GitHubにコード有
35. Jie Feng, Brian Price, Scott Cohen, Shih-Fu Chang, “Interactive Segmentation on RGBD Images via Cue
Selection”, in CVPR, 2016.
【33】
Keywords: image segmentation, MRF
手法
概要
・ユーザの少ないインプットを手掛かりにしてセグメンテーションを
行う。セグメンテーション結果は逐一更新される。提案手法は各ピク
セルにつき、cue label (color, depth, normal, etc.)の中から最もよい
cueを自動的に決定する。
・セグメンテーションラベル(前景/背景)に加え、cue label(最も効
いているcue)も最適化する。
・ユーザインプット:
1) foreground/background clicks
2) foreground/background strokes
3) bounding box around target object
・Multi-label MRFにて、Multi-cue Pairwise Termを使用
Links
Youtube
https://www.youtube.com/watch?v=r-VBaxYw3wM
プロジェクト
http://www.columbia.edu/~jf2776/#3dsegment
36. Chen Liu, Pushmeet Kohli, Yasutaka Furukawa, “Layered Scene Decomposition via the Occlusion-CRF”,
in CVPR, 2016.
【34】
Keywords: scene decomposition, CRF, RGBD, occlusion
新規性・差分
手法概要
・シーンのRGBD画像を、デプスを手掛かりにして複数枚
のレイヤーに分解する。これにより、オクルージョンの発
生している(隠れている)表面をモデリングすることが可
能になった。
・デプスをレイヤー分解してオクルージョンを
扱えるようにした
・従来手法よりも効率的なFusion Space
optimization:解を限定して繰り返し計算で
multi-labeling問題を解く手法を提案した
・Fusion Space optimization
Surface adding proposal、Background hull proposal、Surface refitting
proposal、Layer swap proposal、Single surface expansion proposal、
Backward merging proposal、Structure expansion proposal、の7種類の
proposalを次々に試していく。
Links
Youtube
https://www.youtube.com/watch?v=jjo1jI_sOHs
37. Abhinav Shrivastava, Abhinav Gupta, Ross Girshick, “Training Region-Based Object Detectors with
Online Hard Example Mining”, in CVPR, 2016.
【35】
・online hard example mining (OHEM)を提案した。ハードネガティブマイニング(難しい負例を集めつつモデルを更新していく)はCNN
時代以前の物体検出ではよく使われてきたが、CNNの学習にはあまり使われなかった。Fast RCNNをベースとして、ROIを(ミニバッチサ
イズ毎に)全部使うのでなく、ハードネガティブを選んでミニバッチを作り、ネットワークを更新する。
38. Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi, “You Only Look Once: Unified, Real-Time
Object Detection”, in CVPR, 2016.
【36】
Keywords: YOLO, high speed, regression
新規性・差分
概要
・従来の物体検出は、様々な位置とスケールの物体領域
(ROI)に対して、 (RCNNのように)識別機を使うか、
あるいは(Fast-RCNNのように)位置同定を行うかであっ
た。提案手法は、グリッド状の識別スコアマップを作り、
それによってROIをスコア付けするという全く異なるアプ
ローチをとる。
・一枚の画像全体につきCNNを一回通すだけ
・超高速
・ detection as a regression problem
・GoogleNetライクなモデル
Links
プロジェクト
http://pjreddie.com/darknet/yolo/
詳しい解説つきのオープンソース
7x7
5次元のバウンディングボッ
クス2個と20クラスのスコア
を出力(5*2+20=30次元)
(x, y, w, h, confidence)
43. David F. Fouhey, Abhinav Gupta, Andrew Zisserman, “3D Shape Attributes”, in CVPR, 2016.【41】
Keywords: CNN, dataset
新規性・差分
手法
概要
・3D形状を”平面的”, “穴がある”等の12種類のアトリビュートで表現する。
3D形状アトリビュートをつけた銅像データセットを作り、depth map推
定手法とL. Boら、S. Guptaら等の既存のstate-of-the-artなRGBD物体認識
手法とを組み合わせた結果との比較を行った。
・3D形状アトリビュートの提案
・CNNをつかって一枚の画像から3D形状アトリビュートを推定
・143K枚の銅像データセットを作成
・銅像以外の物体にも汎化できることを示した
・CNNが同じ物体の異なるビューの画像同士を近づけるshape
embeddingも学習できることを示した
Links
プロジェクト
http://www.robots.ox.ac.uk/~vgg/publications/2016/Fouhey16/
同じ物体の異なるビュ
ーの出力を近づける
44. Zhile Ren, Erik B. Sudderth, “Three-Dimensional Object Detection and Layout Prediction Using Clouds of
Oriented Gradients”, in CVPR, 2016.
【42】
Keywords: 3D descriptor, structural SVM
新規性・差分
手法
概要
・室内RGBD画像データセットにおける3D物体検出とレイ
アウト推定を行う。2Dのアピアランスと3Dの姿勢を結び
つけるCloud of oriented gradient (COG)記述子を提案。
SUN RGB-Dデータセットでstate-of-the-artの物体検出性能
を記録した。
・新しい記述子COGの提案
・Manhattan Voxelsの提案
・COG抽出:3D cuboidを6x6x6のボクセルデータに変換し、各セルの点群
密度と法線ヒストグラムを計算する
・Manhattan Voxels:マンハッタンワールド推定により点群のアウトライア
に頑健なレイアウト推定を行う
・Structural SVM (S-SVM)を学習
Links
プロジェクト
http://buildingparser.stanford.edu/method.html
45. Michael Firman, Oisin Mac Aodha, Simon Julier, Gabriel J. Brostow, “Structured Prediction of
Unobserved Voxels from a Single Depth Image”, in CVPR, 2016.
【43】
Keywords: 3D shape completion, volumetric model generation, occlusion
新規性・差分
手法
結果
概要
・一枚の距離画像(2.5Dデータ)から欠損のない
3Dのボクセルデータを推定する。室内環境データ
セットを作って手法の評価を行った。
・Voxlets: 局所マルチボクセルジオメトリーの提案。
Structred Random Forestsを用いて距離画像の一点からそ
の周囲の幾何的構造を推定する。
・物体ごとに90スキャン撮影したデータセット作成
・手法の評価指標を提案
Links
プロジェクト
http://visual.cs.ucl.ac.uk/pubs/depthPrediction/
動画
https://www.youtube.com/watch?v=1wy4y2GWD5o
ソースコード
https://github.com/mdfirman/voxlets
46. Charles R. Qi, Hao Su, Matthias Nießner, Angela Dai, Mengyuan Yan, Leonidas J. Guiba, “Volumetric
and Multi-view CNNs for Object Classification on 3D Data”, in CVPR, 2016.
【44】
Keywords: 3D object classification, 2D-based CNN, 3D volumetric CNN
新規性・差分
手法概要
・3D形状モデルの物体カテゴリ識別問題は、3D CNNを用
いたものとマルチビュー画像を入力する2DベースのCNN
を用いたものが提案されている。後者のほうが遥かに高性
能であると言われてきたが、それは解像度が原因か、はた
またネットワークアーキテクチャの問題か?その解析を行
うとともに、両アプローチの改良を行い、state-of-the-art
の性能を示すとともに、30x30x30のボクセル解像度を用
いた場合のmulti-view CNNと3D volumetric CNNの性能が
同等となることを確認した。
・2Dベース手法と3Dボクセル手法の性能差の原因を解析
・両手法の改良
・state-of-the-artの性能実現
・同解像度にて両手法がcomparativeであることを確認
・3Dボクセル手法のボトルネックが解像度であるとの結論
1. Volumetric CNN(3D)に関して
・ネットワークアーキテクチャ改良
・回転のData augmentation+複数の姿勢データを入力
Links
ソースコード
https://github.com/charlesq34/3dcnn.torch
2. Multi-View CNN(2D)に関して
・multi-resolutionを使うことでMulti-View CNNも改良
47. German Ros, Laura Sellart, Joanna Materzynska, David Vazquez, Antonio M. Lopez, “The SYNTHIA Dataset: A Large
Collection of Synthetic Images for Semantic Segmentation of Urban Scenes”, in CVPR, 2016.
【45】
Keywords: synthesized data, semantic segmentation
新規性・差分
データセット概要
・人工的に作成した大規模な都市画像データセット。特に
自動運転タスクに重要な物体であるstreet blocks,
highways, rural areas, shops, parks and gardens, general
vegetation, variety of pavements, lane markings, traffic
signs, lamp poles, そして人間を含んでいる。
・自動運転のためのSemantic Segmentationの新しい大規模データセットSYNTHIAを作成
・人工的に、さまざまな照明変化と天気の変化を加え、多数の視点からのデータを作成
・合成画像なので人手のアノテーション作成が不要
・リアルデータの学習セットにSYNTHIAを加えることで性能向上
・SYNTHIA-Rand:ランダムに撮影した13,400枚の画像
・SYNTHIA-Seqs:約50,000枚の連続フレームからなる動画4本
Links
プロジェクト
http://adas.cvc.uab.es/synthia
48. Jialin Wu, Gu Wang, Wukui Yang, Xiangyang Ji, “Action Recognition with Joint Attention on Multi-Level
Deep Features”, in BMVC, 2016.
【46】
Keywords: Action Recognition, CNN, RNN
新規性・差分
概要
CNNとRNN(LSTM)を用いて複数階層の特徴量にアクセス
することにより、行動認識の精度を向上させる.提案手法
の構造には複数の枝分かれしたMulti-branch modelが含ま
れる.この仕組みにより背景のノイズに頑健な認識ができ
ると主張した.C3Dの3D Convolution [Tran+, ICCV15]に
より作成されたCNNをLSTMに入力.
・畳み込みやLSTMの仕組み自体ではなく,そのアーキテ
クチャの構造により新しさを出した.
・State-of-the-artではないが,UCF101で90.6%,
HMDB51にて61.7%と良好な性能を出した.
Links
論文 http://arxiv.org/pdf/1607.02556v1.pdf
プロジェクト
49. Jordan M. Malof, Kyle Bradbury, Leslie M. Collins, Richard G. Newell, “Automatic Detection of Solar
Photovoltaic Arrays in High Resolution Aerial Imagery”, in arXiv pre-print 1607.06029, 2016.
【47】
Keywords: Drone, UAV, Solar Panel
新規性・差分
概要
航空画像からのソーラーパネルの検出.135km^2に渡る観
測を実行した.データは5,000x5,000[pixels]の画像600枚
により構成される.アノテーションされた2,700箇所のデ
ータにより学習と検出を行った.手法にはRandom
Forestsを用いて,後処理により精度を高めている.特徴
は注目点の周辺から画素を蓄積する.
・Pixel-wiseのセグメンテーションを実行.また,物体レ
ベルの認識も提供している.
Links
論文 https://arxiv.org/ftp/arxiv/papers/1607/1607.06029.pdf
プロジェクト