【2016.07】cvpaper.challenge2016

cvpaper.challenge
Twitter@CVPaperChalleng
http://www.slideshare.net/cvpaperchallenge
MAILTO: cvpaper.challenge[at]gmail[dot]com

Justin Johnson, Andrej Karpathy, Li Fei-Fei, “DnseCap: Fully Convolutional Localization Networks for
Dense Captioning”, in CVPR, 2016.
【1】
Keywords: Dense Captioning
新規性・差分
概要
画像の密なキャプショニングに関する研究．画像生成文を検出したbboxベー
スで行うという研究である．物体認識と物体検出のように，画像生成文と
Dense Captioningの関係性があると主張している．現在，10万の画像に対し
て5百万のキャプショニングのラベルがつけられたデータVisual Genomeを公
開して研究の推進に役立てている．Region Proposal ~ CNN ~ RNNまでを
End-to-Endで学習していて，さらにはコードを公開しリアルタイムで動作す
る仕組みを用いた．
・従来の画像に対するキャプショニングとは異なり，領域
ベースの候補領域抽出を行った．
Links
論文 http://cs.stanford.edu/people/karpathy/densecap.pdf
プロジェクト http://cs.stanford.edu/people/karpathy/densecap/
データセット https://visualgenome.org/
コード https://github.com/jcjohnson/densecap
Justin Johnson http://cs.stanford.edu/people/jcjohns/

Jean-Baptiste Alayrac, Piotr Bojanowski, Nishant Agrawal, Josef Sivic, “Unsupervised Learing From
Narrated Instruction Videos”, in CVPR, 2016.
【2】
Keywords: Video Captioning, Narration, Instruction
新規性・差分
概要
ビデオから説明書となる説明文を生成して，のちに動画検
索やロボットへのインストラクションを行う．ビデオキャ
プショニングや行動認識・イベント認識の総合的な問題で
あると言える．映像データは約2分で構成され，タスクに
対して最低30のビエオが含まれる．各ビデオには7~10の
ステップが存在する．テキストクラスタリング，ビデオク
ラスタリングを行い，説明文を対応づける．
・動画像を入力とした生成文に対して，アプリケーション
的な部分にフォーカスしている
・ビデオから説明文を生成することにより，教育用の説明
を付与することができる
Links
論文
http://www.di.ens.fr/~alayrac/papers/alayrac16unsupervised.pdf

Haonan Wu, Jiang Wang, Zhiheng Huang, Yi Yang, Wei Xu, “Video Paragraph Captioning Using
Hierarchical Recurrent Neural Networks”, in CVPR, 2016.
【3】
Keywords: Video Captioning
新規性・差分
概要
Sentence GeneratorやParagraph Generatorをそれぞれの
RNNが担うことで動画生成文の構成をよくする．画像特徴
はVGG-16，動画特徴はC3Dを用いて表現することで認識
の性能を向上した．
・2段構成の階層的なRNNモデルを用いることで，動画生
成文の表現能力を向上させた
Links
論文 http://arxiv.org/pdf/1510.07712v1.pdf

Kevin J. Shih, Saurabh Singh, Derek Hoiem, “Where to Look: Focus Regions for Visual Question
Answering”, in CVPR, 2016.
【4】
Keywords: Visual Question Answering (VQA)
新規性・差分
概要
画像に対する質問回答に対して，「画像のどこをみればよ
いのか」という位置を特定する研究である．画像特徴や文
章のキーワード特徴の対応づけや重み付けによりキーワー
ドに対する画像領域に対して顕著性のようなヒートマップ
を生することができる．
・言語と画像の入力から，どこをみれば良いのかまた画像
に対する質問回答に対して効果的なアプローチを提供でき
ていると言える
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Shih_W
here_to_Look_CVPR_2016_paper.pdf
VQAサーベイ http://iamaaditya.github.io/research/literature/

German Ros, Laura Sellart, Joanna Materzynska, David Vazquez, Antonio M. Lopez, “The SYNTHIA
Dataset: A Large Collection of Synthetic Images for Semantic Segmentation of Urban Scenes”, in CVPR,
2016.
【5】
Keywords: Semantic Segmentation, Domain Adaptation, Transfer Learning
手法
結果
概要
・セマンティックセグメンテーション用に，CGによる仮
想世界データセットであるSYNTHIA Datasetを作成．
・実世界データと合わせることで大幅に精度向上．
・SYNTHIA Dataset:
- 季節・天気・照明条件・視点の変動を含む．
- pixel-levelのクラス情報とdepth情報を持つ．
・CNNは，T-Net[Ros+,arXiv2016] と FCN[Long+,CVPR2015] を使用．
・実世界データとCGデータを併用して学習するため，
BGC (Balanced Gradient Contribution) [Ros+,arXiv2016]を使用．
学習時の各batchは，実世界データ6枚とCGデータ4枚を含む．
・実世界データとCGデータを併用して学習することで，
実世界データのみで学習した場合と比較し精度向上．
（Camvid, KITTIの場合，Class Accuracyが10%前後向上．）
Links
foundation.org/openaccess/content_cvpr_2016/papers/Ros_Th
e_SYNTHIA_Dataset_CVPR_2016_paper.pdf
プロジェクト・動画 http://synthia-dataset.net/dataset/
新規性・差分
・CGデータを用いた先行研究では，物体検出・姿勢推定・屋
内シーンのセマンティックセグメンテーションが行われてい
る．
・本論文は，都市環境のセマンティックセグメンテーション
におけるCGデータの有効性を示した．

German Ros, Simon Stent, Pablo F. Alcantarilla, Tomoki Watanabe, “Training Constrained
Deconvolutional Networks for Road Scene Semantic Segmentation”, in arXiv pre-print 1604.01545, 2016.
【6】
Keywords: Semantic Segmentation, Domain Adaptation, Transfer Learning, Distillation, Compression
手法
結果
概要
・転移学習による高精度・省メモリなセマンティックセ
グメンテーション用ネットワークであるT-Netを提案．
・ランタイム・メモリ使用量無視の高精度ネットワークである
S-Net(source network)を生成．
S-Netは，2つのFCN[Long+,CVPR2015]のアンサンブル．
・Distillation [Hinton+,arXiv2015] に類似した手法で，
SegNetと同様のネットワークT-Net (target network) に転移学習．
・WCE (weighted cross-entropy) を使用し，クラスごとのデータの偏りを考慮．
・異なるデータを統合したデータセットに適用するため，
BGC (Balanced Gradient Contribution)を使用．
・FCNの1%のメモリ使用量で，FCNを越える精度を達成．
（下図のT-Net TK-SMP-WCE）
Links
新規性・差分
・転移学習をセマンティックセグメンテーション用のネ
ットワークに適用・拡張し，有効性を確認．
・セマンティックセグメンテーション用のデータが少数
である問題を解決するため，既存データセットを統合し
たMulti-Domain Road Scene Semantic Segmentation
(MDRS3) datasetを作成．

Quanzeng You, Hailin Jin, Zhaowen Wang, Chen Fang, Jiebo Luo, “Image Captioning with Semantic
Attention”, in CVPR, 2016.
【7】
Keywords: Image Captioning, Attention
新規性・差分
手法概要
・attributeを予想しそれらについての単語ベクトルについ
てのattentionをかけたベクトルを利用することにより画像
説明文生成タスクにおいて最高精度を達成
・画像説明文の新規手法の提案
・予想されたAttributeの単語ベクトルにAttentionをかけて
足し合わせたベクトルの有効性を示す
・RNNの入力xtには前の単語のベクトル(最初のステップでは画像特徴)と
Attributeにattentionをかけて足し合わせた特徴量の和を入力する
Links
foundation.org/openaccess/content_cvpr_2016/papers/You_Im
age_Captioning_With_CVPR_2016_paper.pdf
・また、attentionの度合いαiは以下の通り
・attributeの推定方法は二種類を試す
① Non-parametric: 画像特徴量の距離をもとにtest画像と近いものを学習用画
像から持ってきて、その画像に
付与された説明文におけるTerm
Frequencyをもとにattributeを付与
②Parametric: 識別器を学習させる
だけ、From visual captions to
visual concepts and backと同様
→Parametricなapproachでattribute
を推定したほうが良い

・
結果
・右上の図は4枚の画像についての、画像説
明文を生成する過程においての各単語の確率
の遷移
・右下のグラフは各手法との性能比較

Tatsunori Taniai, Sudipta N. Sinha, Yoichi Sato, “Joint Recovery of Dense Correspondence and
Cosegmentation in Two Images”, in CVPR, 2016.
【8】
Keywords: cosegmentation, correspondence estimation, graph cuts
概要
・2枚の画像のdense correspondence estimationと
cosegmentationを同時に行う手法を提案．
Links
foundation.org/openaccess/content_cvpr_2016/papers/Taniai_Joint_
Recovery_of_CVPR_2016_paper.pdf
プロジェクト http://taniai.space/projects/cvpr16_dccs/
スライド http://www.slideshare.net/TatsunoriTaniai/solving-
segmentation-and-dense-correspondence-problems-using-graph-cuts
新規性・差分
・correspondence estimationとcosegmentationを同時に行う階層的
MRFモデルを提案．
・iterated graph cutsを用いたエネルギー最小化により，graph
structureとlabelingを同時に推論する最適化手法を提案．
・400組の画像からなる新規データセットを提供．

Seunghoon Hong, Junhyuk Oh, Bohyung Han, Honglak Lee, “Learning Transferrable Knowledge for
Semantic Segmentation with Deep Convolutional Neural Network”, in CVPR, 2016.
【9】
Keywords: Semantic Segmentation, Deep Convolutional Neural Network
新規性・差分
概要
・Deep Convolutional Neural Networkに基づいた弱教師あ
りセマンティックセグメンテーションアルゴリズムの提案
・decoupled encoder-decoder architectureを構築
・Microsoft COCO datasetで学習したとき，PASCAL
2012 datasetにおいて，最先端の弱教師ありの技術と比較
してパフォーマンスの向上を確認
・既存の弱教師ありアルゴリズムとは異なり，画像レベル
のクラスラベルを持つ画像のセグメンテーションを行うた
めに，異なるカテゴリにも利用可能な補助セグメンテーシ
ョンアノテーションを利用．
・各カテゴリ間のセグメンテーション情報を共有するため
に，アノテーションモデルのdecoupled encoder-decoder
architectureを使用．このアーキテクチャでは，各カテゴリ
の空間的なハイライトをを生成し，デコーダによって各ハ
イライト領域の前景を分割．
・アノテーションモデルを組み合わせることで，異なるカ
テゴリで学習されたデコーダのセグメンテーションの性能
を向上．
Links
プロジェクト http://cvlab.postech.ac.kr/research/transfernet/
code https://github.com/maga33/TransferNet

Jinshan Pan, Deqing Sun, Hanspeter Pfister,Ming-Hsuan Yang, “Blind Image Deblurring Using Dark
Channel Prior”, in CVPR, 2016.
【10】
Keywords: deblur,cnn
新規性・差分
概要
・画像のぼけを修正する手法について．
CVPR2009のdark channel priorを元にしている．部分領
域のRGB成分の最小値を取ってくると，ぼけ成分のみを
含んだ画像(dark channel)となる. dark channelに着目し
畳み込み演算を用いることでシンプルで効果的なぼけ除
去を実現している．
・2つの自然blur画像データセットを用いて，最新
手法と精度を比較している．一般的な自然画像や
顔画像，文字や暗い画像についても優れた結果が得
られている．
Links
論文
http://faculty.ucmerced.edu/mhyang/papers/cvpr16_dark_chan
nel_deblurring.pdf

Limin Wang et al., “ActivityNet Challenge 1st prize of untrimmed video classification”, in CVPRW, 2016.【11】
Keywords: ActivityNet Challenge, Action Recognition
新規性・差分
概要
行動認識の大規模データベースであるActivityNetのコンペティションにおいて、行動識別第一位の手法．
CES-STARというチームで行動識別の問題に取り組んだ．Mean Average Precisionが93.23% (200クラス分類)という識別率で勝利した．
戦略としてはVisual Analysis, Fusion, Audio Analysisを実行することで行動認識を実行．単純にCNN特徴を全てのフレームから取り出す
のではなく，重要なフレームをセグメント化して特徴を取り出すことにした．Deep Segmental Networkと呼称されるResNetをベースと
した手法により重要なフレームからのみ特徴抽出を実行する．時系列特徴ではVery Deep Two-stream CNNやTDDをベースとする．
Deep Segmental Network からConsensus Function(重要フレームを選択)を計算，フレーム方向のSliding Window Aggregationにより有効
なフレームから特徴抽出して行動認識の結果を得る．音声の特徴抽出にはResNetをベースとしたAudio CNN (Deep Convolutional neural
networks and data augumentation for acoustic event detection, arxiv)も用いている．
・ActivityNetの識別タスクにて第一位を獲得．mAPが93.233%, Top-1が88.136%，Top-3が96.421%であった．
・Deep Segmental NetworksはHMDB51にて69.0%，UCF101にて94.3%の結果を得ることができた．
Links
プロジェクト http://activity-net.org/challenges/2016/
著者ページ http://wanglimin.github.io/

Ruxin Wang et al., “ActivityNet Challenge 2nd prize of untrimmed video classification”, in CVPRW, 2016.
【12】
Keywords: ActivityNet Challenge, Action Recognition
新規性・差分
概要
行動認識の大規模データベースであるActivityNetのコンペティションにおいて、行動識別第二位の手法．
特徴抽出と特徴統合、探索の戦略により認識や検出を行った．ビデオの入力から特徴抽出(CNN+VLAD, ResNet-152
ImageNet Pre-trained model, Inception-v3, ResNet-152 PlaceNet Pre-trained model + PCA1024 dims)、IDT+Fisher
vector, Two-Stream Very Deep CNN (flow), C3Dのfc7，音声特徴であるMFCCを取得．
特徴統合にはMulti-view intact space learningを用いてintact spaceを理解 [multi-view intact space learning, PAMI2015]．
Latent Intact Representationを1500次元に設定．
・ActivityNetの識別タスクにて第一位を獲得．mAPが92.413%, Top-1が87.792%，
Top-3が97.084%であった．
・Intact Space を導入して視点変化に対応した学習を実行した．
Links

Ruxin Wang et al., “ActivityNet Challenge 1st prize of Activity Detection”, in CVPRW, 2016.
【13】
Keywords: ActivityNet Challenge, Action Detection
新規性・差分
概要
行動認識の大規模データベースであるActivityNetのコンペティションにおいて、行動検出第一位の手法．
各クラスに対してSVMを作成，各ポジティブ・ネガティブごとにIoU overlapが0.7以上のものを採用した．Break off both ends
によりキーフレーム間を切り抜くこととして，Temporal Segmentationでは30フレームのウインドウを走査．Segment
Combinationではトリミングされたビデオとそのラベルを参照してポジティブスコアが高ければ統合や行動検出を行う．
・0.5 IoUではmapが43%，Recallが65%であった．
Links

Gurkirt Singh Singh et al., “ActivityNet Challenge 2nd prize of Activity Detection”, in CVPRW, 2016.
【14】
Keywords: ActivityNet Challenge, Action Detection
新規性・差分
概要
行動認識の大規模データベースであるActivityNetのコンペティションにおいて、行動検出第二位の手法．
行動検出はフレーム位置とその行動ラベルを当てる問題である．特徴量はImageNet Shuffle 特徴(GoogleNet, imagenet
shuffle features, arxiv1602), IDT-MBH (65536dims), C3D(frame-level, 16 frame accumulation)．これらの特徴量をSum
Product, SVMによりつなげると77%にまで向上する．
・Temporal trimming for proposal generationはBinary Random Forests + C3D
特徴により行った結果，Recallが64%となった．
Links
著者
https://scholar.google.co.in/citations?user=w8XHUMIAAAAJ&h
l=en

“ActivityNet Challenge”, in CVPRW, 2016.
【15】
Keywords: ActivityNet Challenge
概要
ActivityNet Challengeでの識別，検出結果について一位，二位以外を記述する．（公表なしは記述なし）
・行動認識
【10位】IDT, GoogleNet, C3D, SVM
【9位】Data augmentation, IDT, Audio, SVM
【8位】MBH, C3d, googlenet, vgg16, resnet101, svm late fusion
【6位】RGBCNN, FlowCNN, C3D RGB, C3D flow
【5位】two-stream, resent fine-tuned, action segmentsのみトレーニング
【3位】2d cnn quantization, 2d cnn pooling, 3d cnn pooling, idt+fv, ocr, mfcc
・行動検出
【6位】C3D(4096dims)とLSTM(512dims)
【4位】two-stream, resent fine-tune, action segment for training, sliding window
【3位】MSNとLSTM (Singh et al. CVPR16論文あり)
・総括
今回の行動検出はフレームごとの検出(どちらかというとフレームのセグメント化に近い)であったが，次回は画像内の位置を当てる行
動検出も取り入れる（UCF101やTHUMOSよりも行動検出が難しくなる！）．また，次回はGoogle DeepMindの提供で1000クラスの行
動認識(各クラス500サンプル以上)も導入することを発表した．
Links
Cees Snoek http://www.ceessnoek.info/
Bernard Ghanem http://www.bernardghanem.com/
Juan Carlos Niebles http://www.niebles.net/

Mohamed E. Hussein and Mohamed A. Ismail, “Visual Comparison of Images Using Multiple Kernel Learning for
Ranking”, in BMVC, 2015.
【16】
Keywords: Attribute, Visual comparison of images
新規性・差分
概要順位付け問題のために一般化されたカーネル学習のフレー
ムワークの提案．提案手法は，元データを記述するために
最適な特徴統合を提示する．実験結果より，提案したフレ
ームワークが最先端手法の性能と処理時間を著しく上回っ
た．
複数のカーネル学習を画像比較へ応用したフレームワ
ークである。順位付け複数カーネル学習(Rank MKL)の
提案．提案手法では複数特徴を統合する際に特徴ごと
のカーネ
Links
Paper :
http://www.bmva.org/bmvc/2015/papers/paper095/abstract095.pdf
Author :https://sites.google.com/site/mhelhoseiny/
提案するフレームワークの概要: はじめに画像より複数の特徴を
抽出する．次に特徴ごとのカーネルを用いて複数カーネル学習よ
り，特徴統合のための特徴ごとのカーネルの重みを最適化する．
最後にRank MKLにより画像比較を行う．
ルの重みを最適化することで，画
像特有の記述を生成する．よって
以下の式中のカーネルの重みdを最
適化する．

Tong Xiao, Hongsheng Li, Wanli Ouyang, Xiaogang Wang, “Learning Deep Feature Representations
with Domain Guided Dropout for Person Re-identification”, in CVPR, 2016.
【17】
Keywords: Person Re-ID, Domain Adaptation, Domain Guided Dropout
新規性・差分
概要
人物再同定のための特徴学習とドメイン変換に関する研究である．ImageNet
では膨大なデータが存在して効果的な特徴学習を行うことができるが，人物
再同定ではその規模のデータが揃うわけではない．その一方で，近年データ
セットの種類が増えてきているので，公開されている全てのRe-IDを統合する
ことで特徴学習し，さらに重みを調整することでタスクに応じて識別器を構
成することができると主張した．
・データセット間に共通した特徴を学習し，Fine-tuningの際にDomain
Guided Dropoutを適用し，本提案のような特徴学習を効果的に行えることが
判明した．このDropoutによりタスク転換の際に必要ないタスクの重みを効
果的に除去することができる．
・Domain Guided Dropoutによりシンプルかつ効果的に，各データに対する
State-of-the-artを達成した(図や表より)．
Links
foundation.org/openaccess/content_cvpr_
2016/papers/Xiao_Learning_Deep_Featur
e_CVPR_2016_paper.pdf
コード
https://github.com/Cysu/dgd_person_reid

Waqas Sultani, Mubarak Shah, “What if we do not have multiple videos of the same action? - Video
Action Localization Using Web Images”, in CVPR, 2016.
【18】
Keywords: Action Detection, Weakly Supervised Learning, Web Images
新規性・差分
概要
Web画像を用いた学習による，動画像からの行動検出に関する研究である．従
来ではある程度拘束があるビデオを用いるが，本論文では拘束がなく長時間の
ビデオからいかに人物行動のローカライズを行うかという設定で研究する．学
習にはキーワードベースの画像検索により収集した画像を，テスト時には行動
候補領域を抽出し，Web画像から収集した画像により学習された識別器により
行動検出を実行する．候補領域の抽出には[Cho+, CVPR15]を用いた．(1) キー
フレームからの候補領域やその特徴，(2) 相関行列とその平均の誤差，(3) 相関
行列の値を最小化するように条件付けして最適化．
・大規模な学習データが揃わずとも，キーワードベースに
より検索されたweb画像により学習した識別器でも高精度
な行動検出ができることが判明した．
・右下の表のように，UCF-Sportsデータに対して良好な
性能を実現した．THUMOSに対しても精度を算出した．
Links
論文
http://crcv.ucf.edu/papers/cvpr2016/CVPR16_Waqas_AL.pdf
ビデオ https://www.youtube.com/watch?v=99FE9XOeX-k
候補領域抽出 [Cho+, CVPR15]
http://www.di.ens.fr/willow/pdfscurrent/cho2015.pdf

Jingjing Meng, Hongxing Wang, Junsong Yuan, Yap-Peng Tan, “From Keyframes to Key Objects: Video
Summarization by Representative Object Proposal Selection”, in CVPR, 2016.
【19】
Keywords: Keyframe, Keyobject
新規性・差分
概要
From Keyframes to Key Objectsというタイトルのとおり，動画像中の
キーフレームから候補領域の抽出により，重要な物体位置を抽出する．
フレームワークは(1) キーフレーム検出や物体候補領域の抽出 (2) 候補
領域のリファインメント (3) 最適化の問題を勾配近似問題に置き換え，
Fast Iterative Shrinkage Thresholding Algorithm (FISTA)により解決す
る．
・キーフレームのみならず，そのフレーム内の重要物体を
抽出することでより詳細な情報にアクセス可能となる．
・FISTAを提案して辞書学習時における選択の勾配近似問
題を解決した．
Links
foundation.org/openaccess/content_cvpr_2016/papers/Meng_
From_Keyframes_to_CVPR_2016_paper.pdf

Weiyang Liu, Yandong Wen, Zhiding Yu, Meng Yang, “Large-Margin Softmax Loss for Convolutional
Neural Networks”, in ICML, 2016.
【20】
Keywords: Softmax, Neural Network
新規性・差分
手法
概要
・Neural Networkを用いてマルチクラス識別に取り組む際
にはよくSoftmax関数に基づいた交差エントロピーロスが
用いられる。これはSoftmax Lossと呼ばれたりもする。
・Softmax LossにLarge-Margin的な考えを追加した手法を
提案し、勾配降下法で学習する方法も同時に示す
・過学習を防ぐ効果もある
・Large-Margin Softmax Loss (L-Softmax Loss) の提案
・L-Softmax Lossを用いた場合に勾配降下法でどのように
最適化すればいいかを提案
・L-Softmax Lossを用いた実験を行う
・Softmax Lossはfiをi番目のクラスのpre-activationとして以下のように表現
できる
Links
論文 http://jmlr.org/proceedings/papers/v48/liud16.pdf
・fjは一つ前の結合層の重みのj行目をWj、一つ前のactivationのベクトルをxi、
両者の角度をθjとして以下のようにも表現できる
・正解ラベルに関する角度θyiがm倍大きくなったとしてもやはり正解ラベル
に対応するconfidenceが大きくなるようにしたいという要望から、次のL-
Softmax Lossを提案
ただし、
・mが整数の場合、cos(mθ)はcos(θ)=(Wyi・xi)/(||Wyi||・||xi||)を用いて表現でき、
それを元にLに勾配降下法を適用
結果
・各種タスクで既存手法を上
回る性能を達成
・左の図は学習された特徴量
Cifar10 Cifar10
データ拡張有
MNISTでL-Softmax Lossを用いて学習された特徴量(左からm=1,...,4)

Yang Gao, Oscar Beijbom, Ning Zhang, Trevor Darrell, “Compact Bilinear Pooling”, in CVPR, 2016.
【21】
Keywords: Bilinear Pooling, Feature Coding,
Kernel Approximation
新規性・差分
手法
概要
・Bilinear Poolingは有効であるが特徴量の次元をNとすると
次元数がO(N^2)である
・Bilinear Poolingの内積は、2次までの多項式カーネルの
特殊系と見なせるため、多項式カーネルと対応する再生核
ヒルベルト空間での表現を近似するための手法を適用する
ことが可能であるため、2種類の近似手法を試す
・誤差逆伝播の方法も提唱
・各種タスクで特徴量を圧縮しても高い性能が出ることを
確認
・Bilinear Poolingと多項式カーネルの関係性の解析
・Bilinear Poolingの次元削減手法の提案
・誤差逆伝播の方法の提唱
・各種タスクでの実験
・Bilinear Poolingは右のように表現できる:
・これらの内積は以下のように変形可能
・これをもとにBilinear Poolingの性能の良さは2次までの多項式カーネルを
用いたカーネルマシンの性質を持っているからあると説明可能としている。
・次元圧縮のために多項式カーネルの低次元近似手法であるRandom
Maclaurin (RM)とTensor Sketch (TS)を使うことを提案し、両者ともに誤差
逆伝播を用いてパラメータ学習する。
Links
foundation.org/openaccess/content_cvpr_2016/papers/Gao_C
ompact_Bilinear_Pooling_CVPR_2016_paper.pdf
結果
・右のグラフは特徴量CUBデータセットにおける実
験結果。元の次元数は25万程度だが、提案手法を用
いてfine-tuningした場合4096次元程度しかなくても
同程度の性能が出ることがわかる。
←2次までの多項式カーネル
各手法の比較

Luis Herranz, Shuqiang Jiang, Xiangyang Li, “Scene Recognition with CNNs: objects, scales and dataset
bias”, in CVPR, 2016.
【22】
Keywords: Hybrid-CNN, ImageNet and PlaceNet
新規性・差分
概要
シーン認識の問題を扱う際に，ImageNetやPlaceNetのデータを
用いてデータセットのバイアスからなる特徴の偏りを解消する．
従来ではHybrid-CNN [23]によりこの問題に取り組んだが，
ImageNetの特徴はシーン認識をうまく向上させるための手がか
りとはなりえなかった．本論文ではImageNetのスケールを考慮
し，さらにはデータセットの偏りの問題を取り扱うことで効果
的にシーン認識の手がかりとして，Hybrid-CNNがうまくいくた
めの成功例となった．
・ImageNetとPlaceNetのHybrid-CNNに対してスケールや
データバイアスの考慮によりシーン認識の精度が向上
・SUN397に対して66.26%とstate-of-the-artな精度を実現
した．
Links
foundation.org/openaccess/content_cvpr_2016/papers/Herran
z_Scene_Recognition_With_CVPR_2016_paper.pdf

Ziyu Zhang, Sanja Fidler, Raquel Urtasun, “Instance-Level Segmentation for Autonomous Driving with
Deep Densely Connected MRFs”, in CVPR, 2016.
【23】
Keywords: Semantic Segmentation, Autonomous Driving
新規性・差分
概要
自動運転の文脈で用いることができるセマンティックセグメンテーション
の手法を提供する．この問題に対して，Densely Connected Markov
Random Fieldを用いてアノテーション情報からのセマンティックセグメン
テーションを実行する．MRFは(1)に示す3つの項 -- Pairwise Smoothness
Term, Pairwise Local CNN Prediction Term, Pairwise Inter-connected
component Term から構成される．
・KITTI Datasetに対して[Zhang+, ICCV15]よりも高い精度
でセマンティックセグメンテーションを実現した．
・密な結合を持つMRFモデルの提案により，周辺領域に対
する分離性能を向上し，セマンティックセグメンテーショ
ンに貢献した．
Links
Slide
http://www.cs.toronto.edu/~urtasun/courses/CSC2541/08_inst
ance.pdf

Lukas Schneider, Marius Cordts, Timo Rehfeld, David Pfeiffer, Markus Enzweiler, Uwe Franke, Marc
Pollefeys, Stefan Roth, “Semantic Stixels: Depth is Not Enough”, in IEEE IV, 2016.
【24】
Keywords: Stixels, Semantic Segmentation, Depth
新規性・差分
概要
距離画像の表現方法のひとつである”Stixels”に対して距離表
現のみならず意味付けも行うことで，自動運転に対して応用
を進めようという研究である．従来のStixelにあるような距離
表現やさらに意味情報のStixelも用いることで，動的な物体や
その距離の情報や，物体ラベルも含めた検出が可能である．
セマンティックセグメンテーションはFully Convolutional
Networks (FCN)により行い，そのモデルはGoogLeNetを適用
した．ステレオマッチングにはSemi Global Matching (SGM)
を適用している．
・従来の距離画像表現であるStixelに意味情報を加えるこ
とでその後の物体検出や距離抽出，占有マップを生成する
際にも複数のメリットが得られる
・FCN，SMG，Stixelなど個別の精度が向上した(下表よ
り)ために，Semantic Stixelsという概念が生まれた．
Links
論文 http://download.visinf.tu-darmstadt.de/papers/2016-iv-schneider-
semantic_stixels-preprint.pdf
Video (Stixels) https://www.youtube.com/watch?v=U01llK42gNc

Hongwei Qin, Junjie Yan, Xiu Li, Xiaolin Hu, “Joint Training of Cascaded CNN for Face Detection”, in
CVPR, 2016.
【25】
Keywords: Joint Training, Face Detection
新規性・差分
概要
CNNのカスケード構造による顔検出の問題やその学習方法
を解決するための研究．複数のカスケード型CNN識別器を
同時に最適化することにより，エラー率を有効に減らし，
顔検出率を向上させようとする試みである．学習時には
Back Propagationを適用し，さらにRegion Proposal Net
(RPN)やR-CNNなどより洗練された構造の識別器において
もカスケード型識別器を導入する．最適化は(1)式のような
識別とローカライズの多タスク損失を最小化するように設
計される．
・従来のカスケード型識別器ではViola&JonesのHaar-like
+ AdaBoostが存在するが，独立に学習していた．一方本論
文ではCNNをカスケード型識別器としてさらに全ての色衣
付きを同時に最適化する．
・顔検出率の比較ではstate-of-the-artな結果@FDDBを示
した．
Links
foundation.org/openaccess/content_cvpr_2016/papers/Qin_Joi
nt_Training_of_CVPR_2016_paper.pdf

Bumsub Ham, Minsu Cho, Cordelia Schmid, Jean Ponce, “Proposal Flow”, in CVPR, 2016.
【26】
Keywords: Object Proposal, Optical Flow
新規性・差分
概要
セマンティックフロー(意味のついたオプティカフロー)により計算され
るまとまりから，物体候補領域を抽出する研究．位置や幾何的な制約に
より整合性を計算できる．さらにはオプティカルフローのパッチベース
の探索と候補領域の移動を同時に解決する．領域マッチングには
Bayesian Modelを適用し，SPM, HOG, CNN特徴などを用いたアピアラ
ンス特徴の抽出や幾何的な情報を扱う項を導入．この問題に対して，新
しいベンチマークを提供した．
・幾何的に強力な制約を与えることで，物体候補領域の整
合性を向上することができる．
・フローや候補領域を同時に抽出可能となる
Links
論文
http://www.di.ens.fr/willow/pdfscurrent/ham2016.pdf
プロジェクト
http://www.di.ens.fr/willow/research/proposalflow/
コード https://github.com/bsham/ProposalFlow

Carl Vondrick, Deniz Oktay, Hamed Pirsiavash, Antonio Torralba, “Predicting Motivations of Actions by
Leveraging Text”, in CVPR, 2016.
【27】
Keywords: Action Recognition, Motivation Prediction
新規性・差分
概要
「なぜ，その行動をとっているのか」を把握して，人物の意図を推定する
研究である．さらに，人物行動は人物の状態を理解するための最初のステ
ップにすぎない．そのため，著者らは画像と人物意図が対応づけられたデ
ータベースを公開し，機械学習により両者を紐付けた．Microsoft COCOデ
ータセットから約10,000人の人物行動とその意図が対応づけられたデータ
ベースをAmazon Mechanical Turk (AMT)によりアノテーション．アノテー
ションは「行動」in order to 「意図」のように行った(右図)．画像による推
定は単純な線形識別器であり，VGG16のfc7を用いる．さらには言語から
行動やシーンの手がかりを導入する．
・コンピュータビジョンにおいて画像に潜在的に存在する
意図を推定する研究の先駆けである．
・現在画像に映っている行動のみでなく，その背後にある
「なぜ」を推定できるようになった．
・Median Rankによる評価の結果，Vision+Person+Textの
情報を用いるのがもっとも推定精度が良いとされた．
Links
論文 http://web.mit.edu/vondrick/intention.pdf
著者 http://web.mit.edu/vondrick/

Kyle Krafka, Aditya Khosla, Petr Kellnhofer, Harini Kannan, Suchendra Bhandarkar, Wojciech Matusik,
Antonio Torralba, “Eye Tracking for Everyone”, in CVPR, 2016.
【28】
Keywords:
新規性・差分
概要
商用に重要な視線推定の実利用化のためにアプリケーションやデータベー
スを公開した(右図)．さらに，スマートフォンにて動作する視線推定器を
開発した．GazeCaptureは1450人もの顔画像が2,500,000フレームにわた
り含まれ，視線推定のためのデータである．GazeCaptureはCNNベースの
視線推定器であり，10~15fps，キャリブレーションなしで1.71~2.53cmの
誤差で動作することが実験的に判明した．CNNモデルは顔，左右の目の画
像，顔が位置するグリッドを入力としてそれぞれ畳み込み，全結合層にて
特徴を統合する．
・他の視線推定のデータセットとの比較が右の表に示され
る．人数，フレーム数ともに大規模なデータである．
・キャリブレーションなしで1.71~2.53cm, キャリブレー
ションありのときには1.34~2.21cmの誤差で動作する．
Links
foundation.org/openaccess/content_cvpr_2016/papers/Krafka_
Eye_Tracking_for_CVPR_2016_paper.pdf
プロジェクト http://gazecapture.csail.mit.edu/

Ariadna Quattoni et al, “Recognizing Indoor Scenes”, inCVPR, 2009.
【29】
Keywords:
新規性・差分
概要
・屋内シーンの認識を行うためのシーンプロトタイプの提
案及びデータセットの構築
屋内のシーン認識では物体の情報及び環境の情報が必要と
なるため従来のシーン認識用データセットに比べより幅広
いデータセットを構築した．
シーン認識のデータセットとして67のカテゴリーに分かれ
全画像で15620枚の画像を用いたデータセットである(右
図)．これらのシーンは大きく5つのカテゴリーとも分ける
ことが可能である．データにはアノテーターによる物体に
特化したROIが付けられている．
ROIを行った領域の2×2グリッドからSIFT+BoFのヒストグ
ラムを得る．このヒストグラムを用いて物体の領域を検出
する．
ROI, グラフカットによるセグメントのそれぞれをシーン
プロトタイプと定義する．
結果はROI+GIST+annotationが一番高い
Links http://people.csail.mit.edu/torralba/publications/indoor.p
df

Scott Reed, Zeynep Akata, Honglak Lee and Bernt Schiele, “Learning Deep Representations of Fine-
Grained Visual Descriptions”, in CVPR, 2016.
【30】
Keywords: natural language, image retrival
新規性・差分
概要属性ベースのゼロショットでの認識問題では，多くの属
性が必要であり，属性は自然言語インタフェースを提供し
ていないという制約がある．これらを克服するため，文章
そのものを学習し，注釈及び検索の両方に適用可能な，テ
キストの記述子と画像間の得点関数を学習するモデルを提
案する．
Links
Paper :
http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Reed_Learn
ing_Deep_Representations_CVPR_2016_paper.pdf
Author :http://www-personal.umich.edu/~reedscot/ 「この鳥は，腹が黄色，頭が黒，そして胸と羽が黒である」というアノ
テーションに対する，符号化方法ごとの画像検索結果．
Caltech UCSD Bird 2000 - 2011データセットにおいて，最先端
手法であった属性ベースの画像分類手法の性能を大幅に超えた．
また，テキストの長さが異なる場合においても，自然言語の符
号化が可能である．文章を単語ごとに符号化した場合が最も性
能が良かった．
提案する符号化方法の1つであるconvolutional-recurrent netである．
文字/単語ごとにずらしながら，順次符号化を繰り返す．

Yuanjun Xiong, Limin Wang, Zhe Wang, Bowen Zhang, Hang Song, Wei Li, Dahua Lin, Yu Qiao, Luc
Van Gool, Xiaoou Tang, “CUHK & ETHZ & SIAT Submission to ActivityNet Challenge 2016”, in CVPRW ,
2016.
【31】
Keywords: AcvitiyNet Challenge, Action Recognition, TDD, Two-Stream ConvNets
新規性・差分
概要
2016年に開催された動画認識のコンペティションにて優勝
した，香港のCUHK，スイスのEYHZ，中国のSIATによる
合同チームの手法を説明した論文．動画中からスコアを算
出してフレーム選択するネットワークや，特徴抽出には
ResNet，GoogLeNet_v3やTDD(下記リンク参照)などを用
いて200クラスの分類においてmAP 93.23%を実現した．
・動画認識の200クラス分類において驚異のtop-1 88%,
top-3 96%，mAP 93%を達成した．
・動画特徴について，Snnipet-wiseの解析を提案し，さら
には動画特徴のみならず音声特徴においてMFCCやAudio
CNNを用いた
Links
論文 http://wanglimin.github.io/contests/XiongW_Anet16.pdf
コード https://github.com/yjxiong/anet2016-cuhk
Very Deep Two-Stream ConvNets
http://personal.ie.cuhk.edu.hk/%7Exy012/others/action_recog/
Trajectory-pooled Deep-convolutional Descriptors (TDD)
http://wanglimin.github.io/tdd/index.html
手法
手法はビデオの断片から特徴を抽出するかどうか判断するSnippet-wise
predictorとビデオから特徴抽出して識別を実行するVideo-level classificationに
分けられる．Snippet-wiseではResNetやInception_v3を用いた方法を考案．ま
た，Video-levelではSnippet-wiseの処理によるスコアを用いて特徴抽出するフ
レームを適応的に用いた．また，音声特徴としてMFCCやResNetを用いる
Audio CNNを用いた．ビデオ特徴にはアピアランスベースのCNN (ResNet,
Inception_v3)，モーションCNN (TDD, Very Deep Two-Stream ConvNets)，
IDTを用いて，mAPが90.4%，Top-3 は95.2%であった．
結果
ActivityNet v1.3では10,024をトレーニングに用い，15,140の行動インスタンス
が含まれ，200の行動クラス分類を実行する．Validationセットには4,926動画が
含まれ，7,654の行動インスタンスが含まれる．最終的なテストセットには
5,044の動画が含まれ，この評価値により順位が競われる．下の表がValidation
セットに対する評価である．

Kwang Moo Yi, Yannick Verdie, Pascal Fua, Vincent Lepetit, “Learning to Assign Orientations to Feature
Points”, in CVPR, 2016.
【32】
Keywords: orientation, CNN
新規性・差分
手法概要
・従来は人手で決めていたSIFTなどの局所特徴のオリエン
テーションの基準を、CNNで学習して求めた。また、
ReLU, maxout, and PReLUなどのレイヤーを一般化したも
のを提案し、性能向上を確かめた。
・CNNによるオリエンテーション学習
・Generalized Hinging Hyperplanes (GHH)をベースとした
新しいactivation function
・Siamese Networkのように画像パッチを２枚ペアで入力し、それぞれに対
してCNNが出力したオリエンテーションのもとでのデスクリプタの距離＝損
失を最小化する
Links
プロジェクト
https://kmyi.wordpress.com/2016/07/12/learning-to-assign-
orientations-to-feature-points/
GitHubにコード有

Jie Feng, Brian Price, Scott Cohen, Shih-Fu Chang, “Interactive Segmentation on RGBD Images via Cue
Selection”, in CVPR, 2016.
【33】
Keywords: image segmentation, MRF
手法
概要
・ユーザの少ないインプットを手掛かりにしてセグメンテーションを
行う。セグメンテーション結果は逐一更新される。提案手法は各ピク
セルにつき、cue label (color, depth, normal, etc.)の中から最もよい
cueを自動的に決定する。
・セグメンテーションラベル（前景/背景）に加え、cue label（最も効
いているcue）も最適化する。
・ユーザインプット：
1) foreground/background clicks
2) foreground/background strokes
3) bounding box around target object
・Multi-label MRFにて、Multi-cue Pairwise Termを使用
Links
Youtube
https://www.youtube.com/watch?v=r-VBaxYw3wM
プロジェクト
http://www.columbia.edu/~jf2776/#3dsegment

Chen Liu, Pushmeet Kohli, Yasutaka Furukawa, “Layered Scene Decomposition via the Occlusion-CRF”,
in CVPR, 2016.
【34】
Keywords: scene decomposition, CRF, RGBD, occlusion
新規性・差分
手法概要
・シーンのRGBD画像を、デプスを手掛かりにして複数枚
のレイヤーに分解する。これにより、オクルージョンの発
生している（隠れている）表面をモデリングすることが可
能になった。
・デプスをレイヤー分解してオクルージョンを
扱えるようにした
・従来手法よりも効率的なFusion Space
optimization：解を限定して繰り返し計算で
multi-labeling問題を解く手法を提案した
・Fusion Space optimization
Surface adding proposal、Background hull proposal、Surface refitting
proposal、Layer swap proposal、Single surface expansion proposal、
Backward merging proposal、Structure expansion proposal、の７種類の
proposalを次々に試していく。
Links
Youtube
https://www.youtube.com/watch?v=jjo1jI_sOHs

Abhinav Shrivastava, Abhinav Gupta, Ross Girshick, “Training Region-Based Object Detectors with
Online Hard Example Mining”, in CVPR, 2016.
【35】
・online hard example mining (OHEM)を提案した。ハードネガティブマイニング（難しい負例を集めつつモデルを更新していく）はCNN
時代以前の物体検出ではよく使われてきたが、CNNの学習にはあまり使われなかった。Fast RCNNをベースとして、ROIを（ミニバッチサ
イズ毎に）全部使うのでなく、ハードネガティブを選んでミニバッチを作り、ネットワークを更新する。

Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi, “You Only Look Once: Unified, Real-Time
Object Detection”, in CVPR, 2016.
【36】
Keywords: YOLO, high speed, regression
新規性・差分
概要
・従来の物体検出は、様々な位置とスケールの物体領域
（ROI）に対して、（RCNNのように）識別機を使うか、
あるいは（Fast-RCNNのように）位置同定を行うかであっ
た。提案手法は、グリッド状の識別スコアマップを作り、
それによってROIをスコア付けするという全く異なるアプ
ローチをとる。
・一枚の画像全体につきCNNを一回通すだけ
・超高速
・ detection as a regression problem
・GoogleNetライクなモデル
Links
プロジェクト
http://pjreddie.com/darknet/yolo/
詳しい解説つきのオープンソース
7x7
5次元のバウンディングボッ
クス2個と20クラスのスコア
を出力（5*2+20=30次元）
(x, y, w, h, confidence)

Spyros Gidaris, Nikos Komodakis, “LocNet: Improving Localization Accuracy for Object Detection”, in
CVPR, 2016.
【37】
Keywords: object localization, bounding box, CNN
新規性・差分
手法
結果概要
・物体検出のバウンディングボックスをより正確な位置に修
正するCNNを学習する。バウンディングボックスのコーナー
座標（縦横それぞれ）、あるいはバウンディングボックス内
である確率（これも縦横それぞれ）をCNNで出力し、それを
もとに最適なバウンディングボックス座標を算出する。
・物体の位置同定問題をバウンディングボックス座標の確率
推定問題として定義したこと
・そのような問題を解くCNNであるLocNetの設計
・mAPが飛躍的に向上
・バウンディングボックス抽出処理すら不要（入力はスライ
ディングウィンドウでもOK）
Links
コード
https://github.com/gidariss/LocNet
Pascal VOC 2007と2012、
MS COCOでFast-RCNN
と比較してmAPが向上し
た。

Kai Kang, Wanli Ouyang, Hongsheng Li, Xiaogang Wang, “Object Detection from Video Tubelets with
Convolutional Neural Networks”, in CVPR, 2016.
【38】
Keywords: temporal CNN, object detection, object tracking
新規性・差分
手法
結果
概要
・ビデオからの物体検出タスクを、物体検出とトラッキン
グを融合したマルチステージフレームワークで行う。
Tubeletというトラックのプロポーザルに対して位置調整
を行い、最後に時系列CNNで連続フレームのスコアを統合。
静止画像物体検出よりも高い性能を示した。
・ビデオ物体検出のマルチステージフレ
ームワークの提案
・静止画物体検出と物体トラッキングと
それらの関係性を詳しく調査
・時系列CNNの提案
・spatio-temporalタブレットで物体プロポーズ
ステップ１：セレクティブサーチ＋R-CNNでeasy negativeサンプル除去
ステップ２：対象の30クラスをSVM識別機でスコアリング
ステップ３：双方向トラッキング＋tracklet結合でトラック（tubelet）を作成
ステップ４：バウンディングボックスを周辺に増やしてmax-poolingし、位置
を調整
ステップ５：時系列方向1次元畳み込みネットでスコアを連続フレームのスコ
アをひとつにまとめる
・静止画像物体検出に比べ、ImageNet VIDで2.2%、YTOで2%性能改善
Links
ソースコード
https://github.com/myfavouritekk/vdetlib

Judy Hoffman, Saurabh Gupta, Trevor Darrell, “Learning with Side Information through Modality
Hallucination”, in CVPR, 2016.
【39】
Keywords: RGBD, object detection, multi modality
新規性・差分
手法
結果
概要
・物体検出のためのマルチモーダルFast RCNNをRGBD画
像データセットを用いて学習する。RGB画像を入力として
RGBネットワークとHallucinationネットワークを学習し、
同時にDepth画像を入力としてDepthネットワークを学習
する。このとき、Hallucinationネットワークの出力が
Depthネットワークの出力に近くなるような学習を行う。
テスト時にはDeothを用いず、RGB画像のみを入力とする。
NYU2データセットでstate-of-the-artのRGB物体検出モデ
ルの性能を超えた。
・学習にデプス画像を用いることでRGB画像からの物体検
出性能を向上させた。
・NYU2データセットで、RGB画像だけで学習したFast R-
CNN（AP=20.6%）を超えた（AP=24.2%）

Neelima Chavali, Harsh Agrawal, Aroma Mahendru, Dhruv Batra, “Object-Proposal Evaluation Protocol
is ‘Gameable’”, in CVPR, 2016.
【40】
Keywords: object proposal, dense annotation, dataset
新規性・差分
手法, 結果概要
・これまでの物体プロポーザル手法は（PASCAL VOCの20クラス等
の）一部のカテゴリの物体のみがアノテーションされたデータセット
で性能評価されてきた。しかしながら、物体プロポーザル手法は本来
カテゴリに依らずあらゆる物体の候補出しを可能にすべきであり、そ
の性能を正しく評価できていなかったといえる。本論文はPASCAL
VOCデータセットのあらゆる物体をアノテーションし、既存手法を
改めて評価した。
・nearly-fully annotated PASCAL VOCデータセットの提供
・既存の物体プロポーザル手法を正しく評価
・データセットの評価指標の提案
・物体アノテーションをPASCAL20クラスのみにした場合、
PASCAL20クラスに含まれない60クラスのみにした場合、全ク
ラスにした場合のそれぞれで手法の性能を評価。
・RCNNでPASCAL20クラスに特化した物体検出器Detector
Masquerading as Proposal generator（DMP）を作り、物体プ
ロポーザル手法と称して性能を評価。
・PASCAL20クラスをアノテーションしたデータではDMPが
圧倒的に良くなってしまい（＝Gamable）、それ以外でのケー
スで評価した場合のDMP性能との差が激しいということを示し
た。
Links
プロジェクト
https://filebox.ece.vt.edu/~aroma/web/object-proposals.html
ソースコード
https://github.com/batra-mlp-lab/object-proposals
本当はMethod 1の方が良い

David F. Fouhey, Abhinav Gupta, Andrew Zisserman, “3D Shape Attributes”, in CVPR, 2016.【41】
Keywords: CNN, dataset
新規性・差分
手法
概要
・3D形状を”平面的”, “穴がある”等の12種類のアトリビュートで表現する。
3D形状アトリビュートをつけた銅像データセットを作り、depth map推
定手法とL. Boら、S. Guptaら等の既存のstate-of-the-artなRGBD物体認識
手法とを組み合わせた結果との比較を行った。
・3D形状アトリビュートの提案
・CNNをつかって一枚の画像から3D形状アトリビュートを推定
・143K枚の銅像データセットを作成
・銅像以外の物体にも汎化できることを示した
・CNNが同じ物体の異なるビューの画像同士を近づけるshape
embeddingも学習できることを示した
Links
プロジェクト
http://www.robots.ox.ac.uk/~vgg/publications/2016/Fouhey16/
同じ物体の異なるビュ
ーの出力を近づける

Zhile Ren, Erik B. Sudderth, “Three-Dimensional Object Detection and Layout Prediction Using Clouds of
Oriented Gradients”, in CVPR, 2016.
【42】
Keywords: 3D descriptor, structural SVM
新規性・差分
手法
概要
・室内RGBD画像データセットにおける3D物体検出とレイ
アウト推定を行う。2Dのアピアランスと3Dの姿勢を結び
つけるCloud of oriented gradient (COG)記述子を提案。
SUN RGB-Dデータセットでstate-of-the-artの物体検出性能
を記録した。
・新しい記述子COGの提案
・Manhattan Voxelsの提案
・COG抽出：3D cuboidを6x6x6のボクセルデータに変換し、各セルの点群
密度と法線ヒストグラムを計算する
・Manhattan Voxels：マンハッタンワールド推定により点群のアウトライア
に頑健なレイアウト推定を行う
・Structural SVM (S-SVM)を学習
Links
プロジェクト
http://buildingparser.stanford.edu/method.html

Michael Firman, Oisin Mac Aodha, Simon Julier, Gabriel J. Brostow, “Structured Prediction of
Unobserved Voxels from a Single Depth Image”, in CVPR, 2016.
【43】
Keywords: 3D shape completion, volumetric model generation, occlusion
新規性・差分
手法
結果
概要
・一枚の距離画像（2.5Dデータ）から欠損のない
3Dのボクセルデータを推定する。室内環境データ
セットを作って手法の評価を行った。
・Voxlets: 局所マルチボクセルジオメトリーの提案。
Structred Random Forestsを用いて距離画像の一点からそ
の周囲の幾何的構造を推定する。
・物体ごとに90スキャン撮影したデータセット作成
・手法の評価指標を提案
Links
プロジェクト
http://visual.cs.ucl.ac.uk/pubs/depthPrediction/
動画
https://www.youtube.com/watch?v=1wy4y2GWD5o
ソースコード
https://github.com/mdfirman/voxlets

Charles R. Qi, Hao Su, Matthias Nießner, Angela Dai, Mengyuan Yan, Leonidas J. Guiba, “Volumetric
and Multi-view CNNs for Object Classification on 3D Data”, in CVPR, 2016.
【44】
Keywords: 3D object classification, 2D-based CNN, 3D volumetric CNN
新規性・差分
手法概要
・3D形状モデルの物体カテゴリ識別問題は、3D CNNを用
いたものとマルチビュー画像を入力する2DベースのCNN
を用いたものが提案されている。後者のほうが遥かに高性
能であると言われてきたが、それは解像度が原因か、はた
またネットワークアーキテクチャの問題か？その解析を行
うとともに、両アプローチの改良を行い、state-of-the-art
の性能を示すとともに、30x30x30のボクセル解像度を用
いた場合のmulti-view CNNと3D volumetric CNNの性能が
同等となることを確認した。
・2Dベース手法と3Dボクセル手法の性能差の原因を解析
・両手法の改良
・state-of-the-artの性能実現
・同解像度にて両手法がcomparativeであることを確認
・3Dボクセル手法のボトルネックが解像度であるとの結論
1. Volumetric CNN（3D）に関して
・ネットワークアーキテクチャ改良
・回転のData augmentation＋複数の姿勢データを入力
Links
ソースコード
https://github.com/charlesq34/3dcnn.torch
2. Multi-View CNN（2D）に関して
・multi-resolutionを使うことでMulti-View CNNも改良

German Ros, Laura Sellart, Joanna Materzynska, David Vazquez, Antonio M. Lopez, “The SYNTHIA Dataset: A Large
Collection of Synthetic Images for Semantic Segmentation of Urban Scenes”, in CVPR, 2016.
【45】
Keywords: synthesized data, semantic segmentation
新規性・差分
データセット概要
・人工的に作成した大規模な都市画像データセット。特に
自動運転タスクに重要な物体であるstreet blocks,
highways, rural areas, shops, parks and gardens, general
vegetation, variety of pavements, lane markings, traffic
signs, lamp poles, そして人間を含んでいる。
・自動運転のためのSemantic Segmentationの新しい大規模データセットSYNTHIAを作成
・人工的に、さまざまな照明変化と天気の変化を加え、多数の視点からのデータを作成
・合成画像なので人手のアノテーション作成が不要
・リアルデータの学習セットにSYNTHIAを加えることで性能向上
・SYNTHIA-Rand：ランダムに撮影した13,400枚の画像
・SYNTHIA-Seqs：約50,000枚の連続フレームからなる動画４本
Links
プロジェクト
http://adas.cvc.uab.es/synthia

Jialin Wu, Gu Wang, Wukui Yang, Xiangyang Ji, “Action Recognition with Joint Attention on Multi-Level
Deep Features”, in BMVC, 2016.
【46】
Keywords: Action Recognition, CNN, RNN
新規性・差分
概要
CNNとRNN(LSTM)を用いて複数階層の特徴量にアクセス
することにより、行動認識の精度を向上させる．提案手法
の構造には複数の枝分かれしたMulti-branch modelが含ま
れる．この仕組みにより背景のノイズに頑健な認識ができ
ると主張した．C3Dの3D Convolution [Tran+, ICCV15]に
より作成されたCNNをLSTMに入力．
・畳み込みやLSTMの仕組み自体ではなく，そのアーキテ
クチャの構造により新しさを出した．
・State-of-the-artではないが，UCF101で90.6%，
HMDB51にて61.7%と良好な性能を出した．
Links
プロジェクト

Jordan M. Malof, Kyle Bradbury, Leslie M. Collins, Richard G. Newell, “Automatic Detection of Solar
Photovoltaic Arrays in High Resolution Aerial Imagery”, in arXiv pre-print 1607.06029, 2016.
【47】
Keywords: Drone, UAV, Solar Panel
新規性・差分
概要
航空画像からのソーラーパネルの検出．135km^2に渡る観
測を実行した．データは5,000x5,000[pixels]の画像600枚
により構成される．アノテーションされた2,700箇所のデ
ータにより学習と検出を行った．手法にはRandom
Forestsを用いて，後処理により精度を高めている．特徴
は注目点の周辺から画素を蓄積する．
・Pixel-wiseのセグメンテーションを実行．また，物体レ
ベルの認識も提供している．
Links
論文 https://arxiv.org/ftp/arxiv/papers/1607/1607.06029.pdf
プロジェクト

Adrien Gaidon, Qiao Wang, Yohann Cabon, Eleonora Vig, “Virtual Worlds as Proxy for Multi-Object
Tracking Analysis”, in CVPR, 2016.
【48】
Keywords: object detection
手法
結果
概要
・様々なタスクで利用可能な，CGによるデータセットであ
る
Virtual KITTI Datasetを提案．object detection, tracking,
scene and instance segmentation, depth, optical flow用の
ground truthを含む．
・KITTI tracking benchmarkを元に5つのクローンを作成．
・UnityのAssetを配置．位置・向きは実写データから取得し設定．
・CGを使用するため，特定の1条件のみ変更し評価可能．車の数・軌跡・
速度・サイズ・色・モデル，カメラの位置・向き・パス，天気・照明条件
を変更可能．
・データセットは7種の変動を含む．
・歩行者は除外．
・実写データで学習した場合と，CGデータで学習した場合の精度の差は
小さい．評価指標によっては差がでるが，実写データのアノテーションが
一部省略されていることが原因と考えられる．
・CGデータでプレトレーニングし，実写データでファインチューニング
することで精度向上．
・7種の変動のうち，天気の変化（特に霧）が悪影響．
Links
foundation.org/openaccess/content_cvpr_2016/papers/Gaidon
_Virtual_Worlds_as_CVPR_2016_paper.pdf
プロジェクト http://www.xrce.xerox.com/Research-
Development/Computer-Vision/Proxy-Virtual-Worlds
新規性・差分
・ゼロから作るのではなく，実写映像のクローンを作ること
でCGデータセットを作成．
・multi-object trackingにおいて，CGデータが実写データの
代替として有用であることを確認．
KITTI (multi-object
tracking benchmark)
Virtual KITTI
ground truth (optical flow,
segmentation, depth)

Alexey Dosovitskiy, Philipp Fischer, Eddy Ilg, Philip Hausser, Caner Hazirbas, Vladimir Golkov, Patrick
van der Smagt, Daniel Cremers, Thomas Brox, “FlowNet: Learning Optical Flow With Convolutional
Networks”, in ICCV, 2015.
【49】
Keywords: Optical Flow
概要
・CNNによりオプティカルフロー推定を行う
FlowNetを提案．
・学習用データセットとして，椅子が空を飛ぶデー
タセットであるFlying Chairs datasetを提案．
Links
foundation.org/openaccess/content_iccv_2015/papers/Dosovitskiy_FlowNet_
Learning_Optical_ICCV_2015_paper.pdf
プロジェクト http://lmb.informatik.uni-freiburg.de/Publications/2015/DFIB15/
新規性・差分
・従来のデータセットはオプティカルフロー推定用
CNNの学習には不十分だったが，実写背景に椅子
のCGを重畳し，アフィン変換でランダムに椅子を
飛ばすことで大量のデータを生成．
・このような非現実的なデータセットで学習しても，
SintelやKITTIに適用し，他手法と近い精度を実現で
きることを確認．

Nikolaus Mayer, Eddy Ilg, Philip Hausser, Philipp Fischer, Daniel Cremers, Alexey Dosovitskiy, Thomas
Brox, “A Large Dataset to Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow
Estimation”, in CVPR, 2016.
【50】
Keywords: Scene Flow, Optical Flow, Disparity, Stereo Matching
データセッ
ト
結果
概要
・CNNによるオプティカルフロー推定を，視差・シーンフ
ローの推定に拡張．
・CGによる3種のステレオ動画データセットを提供．シーン
フローの学習・評価を可能にする最初の大規模データセット．
・シーンフローのground truthとして重要なdisparity changeを計算．
・セグメンテーションラベルは物体レベルと材質レベルの2種を用意．
・視差推定はKITTI 2015 benchmarkにおいて，MC-CNN-acrt
[Zbontar+,arXiv2015]と比較し，精度で少し劣るが1000倍高速．リアルタ
イムの手法のMBM [Einecke+,IV2015]と比較し，誤差30%低減．
・個々のタスクを別々に解くより，SceneFlowNetで統合して解く方が高
精度．
Links
foundation.org/openaccess/content_cvpr_2016/papers/Mayer_A_Large_Dataset_CVPR
_2016_paper.pdf
プロジェクト http://lmb.informatik.uni-freiburg.de/Publications/2016/MIFDB16/
新規性・差分
・先行研究のFlowNet [Dosovitskiy+,ICCV2015]では，椅子が空を
飛ぶデータセットであるFlying Chairs Datasetにより，オプティカ
ルフロー推定用CNNを学習．
・本論文では，Stanford ShapeNetの様々な物体が奥行きの変化も
含めて空を飛ぶFlyingThings3D dataset（他2種）により，シーン
フロー推定用CNNを学習．
(2)Monkaa
(Sintelを意識)
(3)Driving
(KITTIを意識)
(1)FlyingThings3
D
手法
・オプティカルフローを推定するFlowNet，視差を推定する
DispNetを学習．その後，2つを下図のように統合した
SceneFlowNetを学習．

ご質問・コメント等ありましたら，cvpaper.challenge@gmail.com / Twitter@CVPaperChallengまでお願いします．

【2016.07】cvpaper.challenge2016

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (15)

Similar to 【2016.07】cvpaper.challenge2016

Similar to 【2016.07】cvpaper.challenge2016 (20)

【2016.07】cvpaper.challenge2016