【2016.06】cvpaper.challenge2016

cvpaper.challenge
Twitter@CVPaperChalleng
http://www.slideshare.net/cvpaperchallenge
MAILTO: cvpaper.challenge[at]gmail[dot]com

Alexander G. Anderson, Cory P. Berg, Daniel P. Mossing, Bruno A. Olshusen, “DeepMoive: Using
Optical Flow and Deep Neural Networks to Stylize Movies”, in arXiv pre-print 1605.08153, 2016.
【1】
Keywords: Art Style,
新規性・差分
概要
自然画像と任意のArt Styleの合成は様々な研究が行われて
おり，例えばGatysらの画像合成などが提案されている(下
記リンク; コードあり)．本論文では動画に対して画像合成
を行う手法を提案する．オプティカルフロー画像を生成し
てより安定した動画のStylizeを実現した．
・オプティカルフローを用いることで画風転移の最適化の
ための初期化にする．動画に対する画像合成には動作特徴
を用いることが重要であると位置付けた．
Links
論文 http://arxiv.org/pdf/1605.08153v1.pdf
プロジェクト http://alexanderganderson.github.io/
ビデオ
https://www.youtube.com/watch?v=nOrXeFBkP04&feature=yo
utu.be
A neural algorithm of artistic style
http://gitxiv.com/posts/jG46ukGod8R7Rdtud/a-neural-
algorithm-of-artistic-style

Gustav Larsson, Michael Maire, Gregory Shakharovich, “FractalNet: Ultra-Deep Neural Networks without
Residuals”, in arXiv pre-print 1605.07648, 2016.
【2】
Keywords: FractalNet, Ultra-Deep, CNN
新規性・差分
概要
残差最適化を用いるResidual Network (ResNet)を用いるこ
となく畳み込みネットワークの構造を深くした．フラクタ
ルのように再帰的な畳み込みの構造を積み上げることで非
常に効果的に精度を向上させることが可能．Drop-pathに
より畳み込みのパスの組み合わせを増やすことで表現能力
を向上．
・ResNetを用いることなく，極めて構造を深くかつ畳み
込みによる勾配を損なわずに精度を向上させることができ
ることを示した．
・フラクタル構造による畳み込みの性質を明らかにして，
それまでのCNNとの違いを検証した．
・CIFAR-100にてstate-of-the-artな22.85%のエラー率を記
録した．
Links
プロジェクト
Fractal architecture: (左) フラクタル構造を模した単純な畳み込みの拡張．緑は
特徴マップの統合を示す．(右)フラクタルによる再帰的な拡張．幅Cを広げるた
びに畳み込み数が2^C-1個に増加する．(C=4の場合には15の畳み込み) プーリン
グと畳み込みを積み上げることで特徴を強固にする．

Yan Huang, Wei Wang, Liang Wang, “Bidirectional Recurrent Convolutional Networks for Multi-Frame
Super-Resolution”, in NIPS, 2015.
【3】
Keywords: Bidirectional Recurrent Convolutional Networks, Multi-Frame Super-Resolution
新規性・差分
手法
結果概要
映像の高解像度化を効率的に行うbidirectional recurrent
convolutional network(BRCN)の提案
cheapな畳み込み演算により，低い計算コストかつ高速に
処理が可能である．
BRCNのフレームワークを右図に示す．
右図に示すように，本フレームワークはforward recurrent
convolutional sub-networkとbackward recurrent
convolutional sub-networkから構成され，これにより時間
的な依存関係をモデル化する．
各ネットワークは，入力層，第1中間層，第2中間層，出力
層で構成されており，Feedforward Convolution, Recurrent
Convolution, Conditional Convolutionを行い，次に層に接
続する．
(1)処理にかかった時間の
比較結果
(2)高解像処理の比較結果
処理時間，処理結果いづ
れにおいても優れた結果
がでていることがわかる
Links
論文
http://papers.nips.cc/paper/5778-
bidirectional-recurrent-convolutional-
networks-for-multi-frame-super-
(1)
(2)

Zhicheng Yan, Hao Zhang, Robinson Piramuthu, Vignesh Jagadeesh, Dennis DeCoste, Wei Di, Yizhou
Yu, “HD-CNN: Hierarchical Deep Convolutional Neural Networks for Large Scale Visual Recognition”, in
ICCV, 2015.
【4】
Keywords: Hierarchical Deep Convolutional Neural Networks, Visual Recognition,
新規性・差分
手法
結果
概要
2レベルのカテゴリ階層にCNNを組み込んだ階層型CNN，
Hierarchical Deep Convolutional Neural
Networks(HDCNN)の提案
HDCNNは粗いカテゴリ分類器と詳細なカテゴリ分類器を
持つことで，詳細なカテゴリ分類に特化させている
以下にHCCNNのアーキテクチャを示す．
本アーキテクチャは, Shared layers, Coarse component
independent layers, Fine component independent layers Fk or
Fi, Probabilistic averaging layerの5つの層を持つ．
入力された画像は共有層に送られ，その後Coarse component
とFine componentの学習を行う層に送られる．
Probabilistic averaging layerで各層からの予測結果を出力する
(1)CIFAR100 datasetでのエラー率
(2)CIFAR100 と ImageNet datasetsで
のエラー率，メモリ使用率，処理時間
の比較
(3)ImageNet validation setでのエラー
率の比較
Links
論文
http://www.cv-
foundation.org/openaccess/content_iccv_2015/papers/Yan_HD-
(1)
(2)
(3)

Ke Zhang, Wei-Lun Chao, Fei Sha, Kristen Grauman, “Video Summarization with Long Short-term
Memory”, in arXiv pre-print 1605.08110, 2016.
【5】
Keywords: Video Summarization
新規性・差分
概要
Recurrent Neural Netowork (RNN)のなかでも，Long-Short
Term Memory (LSTM)を用いてビデオサマライズ (Video
Summarization)を実行する．中でも特に，Domain Adaptation
が改善に有効であることが判明した．ここでは人物の意図をダ
イレクトに要約に反映できることから，教師ありのビデオ要約
に取り組み，高度な意味理解に務める．
・ビデオ要約に対してLSTMを適用し，ビデオに対して順
方向/逆方向の解析を行った．
・SumMeやTVSumといったビデオ要約のデータに対して
高い精度を実現．教師なし(Unsupervised Learning)よりも
高度にビデオを理解して要約した．
Links
著者 http://www-scf.usc.edu/~weilunc/index.html
提案のvsLong-Short Term Memory (LSTM)．LSTMは2階層に積
み上げられており，片方がビデオの進行に対して順方向，もう
一方が逆方向の流れを把握する．

Michael Gygli, Helmut Grabner, Hayko Riemenshneider, Luc Van Gool, “Creating Summaries from User
Videos”, in ECCV, 2014.
【6】
Keywords: Video Summarization, SumMe Dataset
新規性・差分
データセットSumMe
概要
画像要約(Video Summarization)における体系化されたデー
タセット”SumMe”を提案した論文．データセットはプロジ
ェクトページよりダウンロード可能．手法としては画像全
体のアピアランスから動画を荒くセグメント化
(Superframe Segmentation)し，注目度 (顕著性，顔/人物/，
物体等)から詳細にビデオ要約する．
・Superframe Segmentと注目度による手法を提案した．
有効な順に，Attention, Colorful, Landmark, Edges, Person
Areaということが判明した．F値をper-frame (0.234)，
per-segment (0.170)ごとに算出した．
データセットは25の動画から構成され，ビデオの平均時間は2分40秒である．
ビデオの流れは5~15%になるように人により要約され，人物間による整合性
(Human Consistency)も考慮してビデオ要約を実行した．
Links
論文
https://people.ee.ethz.ch/~gyglim/vsum/GygliECCV14_vsum.p
df
プロジェクト https://people.ee.ethz.ch/~gyglim/vsum/

Waqas Sultani, Mubarak Shah, “Automatic Action Annotation in Weakly Labeled Videos”, in arXiv pre-
print 1605.08125, 2016.
【7】
Keywords: Action Annotation, Weakly Labeled Video
新規性・差分
概要
ビデオに対する自動ラベル付けの論文．行動の候補領域を
抽出し，3次元のMarkov Random Fields (3D-MRF)により
候補をランク付けして領域数を限定する．モーション特徴
はImproved Dense Trajectories (IDT)により取得．
・行動における自動ラベル付けを提案
・表は各データ(UCF sports, THUMOS’13, JHMDB)に対す
るラベル付けの結果である
Links
プロジェクト

F. Perazzi, J. Pont-Tuset, B. McWilliams, L. Van Gool, M. Gross, A. Sorkine-Hornung, “A Benchmark
Dataset and Evaluation Methodology for Video Object Segmentation”, in CVPR, 2016.
【8】
Keywords: Segmentation
新規性・差分
概要
前景と背景を高精度に分離するセグメンテーション問題
のための密なラベル付けデータセットであるDAVIS
(Densely Annotated VIdeo Segmentation)を提供する．
・問題は従来のセグメンテーションにのっとっているが，
とにかく密に(Dense)することで現在までの手法がどの程
度できているかを再度認識した．
・従来手法としては教師なし学習による手法 (NLC, FST,
SAL, TRC, MSG, CVOS)，半教師あり学習による手法
(SEA, JMP, TSP, HVS)をDAVISデータセットに対して実
装し，表のような精度を得た．
Links
論文
https://graphics.ethz.ch/~perazzif/davis/file
s/davis.pdf
プロジェクト
https://graphics.ethz.ch/~perazzif/davis/ind
ex.html

Ira Kemelmacher-Shlizerman, Steve Seitz, Daniel Miller, Evan Brossard, “The MegaFace Benchmark: 1
Million Faces for Recognition at Scale”, in CVPR, 2016.
【9】
Keywords: MegaFace, Dataset, Benchmark
新規性・差分
ベンチマーク概要
1,000,000の顔画像が含まれる顔認識ベンチマークである
MegaFaceを提供．実に690,572人の顔画像が含まれ，顔
検出や顔認証の精度を競う．
・顔認証の分野において比類なき人数のビッグデータを提
供した
・GoogleのFaceNet [CVPR15]の拡張版である，FaceNet-
v8が約75%の精度で同データに対して処理した
(NTechLABのFaceNLargeでも約73%を実現)．右にCMC
曲線も示されている．
ベンチマークはFlickerを用いて収集され，その下図は写真数が1,027,060枚
(100万超)，サブジェクト(Unique Faceと呼ばれる)が690,572人であった．
下図は顔やその検出枠である．
Links
論文
https://arxiv.org/pdf/1512.00596v1.pdf
プロジェクト
http://megaface.cs.washington.edu/
NTechLAB http://ntechlab.com/
FaceNet論文
https://arxiv.org/abs/1503.03832
OpenFace
https://cmusatyalab.github.io/openface/

Yuncheng Li, Yale Song, Liangliang Cao, Joel Tetreault, “TGIF: A New Dataset and Benchmark on
Animated GIF Description”, in CVPR, 2016.
【10】
Keywords: Animated GIF, Image Description
新規性・差分
概要
GIFアニメに対する画像説明文の研究．Tumblrからの100K
を超えるGIFアニメと，120Kに及ぶキャプションの収集を
クラウドソーシングにより行い，データセットについても
提案する．
・GIFアニメに対する画像説明文を提案する．さらにはデ
ータの収集についても解決する
・GIFアニメを多数含んだデータセットを提供し，さらに
は同データセットを現在の画像説明文のデータと比較した
・作成したデータセットに対して，既存のビデオ説明文の
手法を実装して比較した．
・コードをGitHubにて一般公開した
・下の表は提案のTGIFデータセットを用い，動画説明文
にDomain Adaptationした際の結果である．データ数が確
保できている分，精度が向上したものと思われる．
Links
プロジェクト http://raingo.github.io/TGIF-Release/
コード https://github.com/raingo/TGIF-Release

Jiale Cao, Yanwei Pang, Xuelong Li, “Pedestrian Detection Inspired by Appearance Constancy and
Shape Symmetry”, in CVPR, 2016.
【11】
Keywords: Pedestrian Detection
新規性・差分
概要
アピアランスの恒常性や形状の対称性を用いることでハン
ドクラフト特徴でも歩行者検出の精度がまだ向上すること
を示した．2種のNon-Neighboring Features (NNF)である
Side-Inner Difference Features (SIDF)やSymmetrical
Similarity Features (SSF)を提案する．
・ハンドクラフト特徴で非常に高いパフォーマンスを実現
した．
・SIDFは前景と背景を効果的に分離することができるだ
けでなく，人物の外輪郭や内側に存在する輪郭を分離する
ことができる．さらにSSFは人物の対称性を考慮した記述
によりSIDFにない表現を実装可能である．
Links
論文 https://arxiv.org/pdf/1511.08058v1.pdf
プロジェクト
SIDFのパッチペア例．SIDFやSSFの識別器には異なる深さのDecision
Treesを組み合わせた．これにより，SIDFやSSFの有効な空間を探索す
ることができ，歩行者と背景を高度に分離可能である．
提案のNNNF-L4はCaltech
Pedestrian Detection Benchmarkに
おいて16.84%のエラー率であった．
CheckerBoard特徴(CVPR2015)から
1.63%向上した．

Spyros Gidaris, Nikos Komodakis, “Object detection via a multi-region & semantic segmentation-aware
CNN model”, in ICCV, 2015.
【12】
Keywords: Object Detection, multi-region, semantic segmentation, CNN 新規性・差分
概要
・セマンティックセグメンテーションを利用した物体認識
システムであるmulti-region deep convolutional neural
networkの提案．
・PASCAL VOC2007 では78.2％， PASCAL VOC2012 で
は73.9％となった．
・物体の検出候補のボックスのスコアリングと，CNNの回
帰モデルによるボックス位置の精緻化を行う．
Links
論文 http://www.cv-
foundation.org/openaccess/content_iccv_2015/papers/Gidaris_Object_Det
ection_via_ICCV_2015_paper.pdf
入力画像をActivation Maps Module に送り畳み込む．同時に検
出候補域を切り抜いたイメージを作成．切り抜いたイメージ
と入力画層の活性化イメージをCropping Layerに送信する．各
部位ごとにRegion Adaptation Moduleでプーリング処理を行い，
Concatenate Layerで結合する．

Songfan Yang, Deva Ramanan, “Multi-scale recognition with DAG-CNNs”, in ICCV, 2015.
【13】
Keywords: Multi-scale Recognition, directed acyclic graph CNN
新規性・差分
概要
画像分類に向けたマルチスケールのCNNの提案
MIT67 では23.9％， Scene15 datasetsでは9.5％エラー率
を軽減させた．
・現在のアプローチは，単一の出力層から特徴を抽出して
いる．→本提案手法はマルチスケール
・複数の層から特徴を抽出することで，高，中，低レベル
の特徴について同時に推定することが可能
・粗な分類と詳細な分類のタスク間で効率的に情報を共有
Links 論文 http://www.cv-
foundation.org/openaccess/content_iccv_2015/papers/Yang_Multi-
Scale_Recognition_With_ICCV_2015_paper.pdf
スライドhttp://www.slideshare.net/hirokiyamamoto969/multi-scale-
recognition-with-dagcnns
マルチスケールDAG-CNNのアーキテクチャは，オリジナルのCNNにマル
チスケールの出力コネクトを追加することで構築される．
具体的には，各スケール毎に，空間的平均プーリングを行い，ユニットノ
ルムで正規化する．その後fully-connected (FC) layerの計算を行い，K個の
出力のクラスに向けた予測スコアを加算する．

Nikolaus Correll, Kostas E. Bekris, Dmitry Berenson, Oliver Brock, Albert Causo, Kris Hauser, Kei Okada,
Alberto Rodriguez, Joseph M. Romano, Peter R. Wurman, “Lessons from the Amazon Picking
Challenge”, in arXiv pre-print 1601.05484, 2016.
【14】
Keywords: Amazon Picking Challenge
新規性・差分
概要
Amzon Picking Challengeはロボットによる倉庫の自動化を図る大規
模プロジェクト&コンペティションである．2015年のICRAワークシ
ョップとして26チームが参加し，Perception, Motion Planning,
Grasping, Robotic Systemなどの総合力を競った．ルールは，(簡単
には)完全自動のロボットが20分の間に12の目的アイテムを棚から取
り出す．目的アイテムは右の図に示す．アイテムによっては加点・
減点の度合いが異なり，その総合点で順位を競う．
・日本から参加したトップはC^2M (中部大学藤吉・山下
研・中京大学橋本研・三菱電機)が最高の5位であった
・優勝はRBOであり，スコアは148．Single Arm，グリッ
プは吸引式，アームに取り付けた3次元画像，レーザスキ
ャン，物体検出や3次元バウンディングボックスの知覚特
徴はカラー・エッジ・高さなどにより行い把持のために用
いた、モーションプラニングは行っていなかった
Links
プロジェクト http://amazonpickingchallenge.org/
Gigazine http://gigazine.net/news/20150602-amazon-picking-
challenge-winner/
藤吉研APC
http://mprg.jp/research/amazon_picking_challenge_j

Sergey Levine, Peter Pastor, Alex Krizhevsky, Deidre Quillen, “Learning Hand-Eye Coordination for
Robotic Grasping with Deep Learning and Large-Scale Data Collection”, in arXiv pre-print 1603.02199,
2016.
【15】
Keywords: Hand-Eye Camera, Robot Grasping
新規性・差分
概要
ロボットの把持を自動で学習するための方法を提案した．
Google Research Blogで一時期話題になったロボットハン
ドの研究である(ビデオあり)．14台のロボットがパラメー
タを共有し，CNNのモデルを学習し，把持の成功/失敗と
その際の環境を学習する．ロボットの稼働時間が合計
3,000時間，800,000回の試行を経て深層学習を学習．
・ロボットの把持に対して自動で学習を行うことでロボッ
トが賢くなる．
・データがなくても，トライ&エラーの繰り返しによりロ
ボットが自ら学習する．
・パラメータを共有して学習，とにかく試行を繰り返して
ロボットの知覚を強化する
Links
ビデオ https://www.youtube.com/watch?v=iaF43Ze1oeI
Google Research Blog
http://googleresearch.blogspot.jp/2016/03/deep-learning-for-
robots-learning-from.html

Min Bai, Wenjie Luo, Kaustav Kundu, Raquel Urtasun, “Deep Semantic Matching for Optical Flow”, in
arXiv pre-print 1604.01827, 2016.
【16】
Keywords: Deep Optical Flow, Semantic Matchiing
新規性・差分
概要
FlowNet (http://arxiv.org/abs/1504.06852)の改良版である
という立ち位置である．FlowNetでは静的なカメラからの
密なオプティカルフロー推定であったが，自動運転のよう
な動的な環境においてもオプティカルフローが行えるよに
なっただけでなく，さらにインスタンスレベルでのデンス
オプティカルフローを抽出可能とした．
・インスタンス(物体)ごとに別のフローであることを認識
することができる．さらに，動的な環境においてもデンス
オプティカルフローを抽出する．
・フローのマッチングを自動で行うことができるCNNを提
案した．
・自動運転を目的としたKITTI2015データセットに対して
実験を行い，良好な性能を示した．
Links
プロジェクト
提案のアーキテクチャ．Siamese CNNを参考に構造化されたネットワークは，
フレーム間の変位を学習する．異なるサイズの畳み込みマップがブロックマ
ッチングのように働く？

Phillip Isola, Daniel Zoran, Dilip Krishnan, Edward H. Adelson, “Learning Visual Groups from Co-
occurrences in Space and Time”, in ICLR, 2016.
【17】
Keywords: Unsupervised Patch Learning, Siamese Network
新規性・差分
概要
2枚の画像を入力し，畳み込みにより類似度計算や次元削
減などを行うSiamese Networkを用いて，パッチの類似度
を教師なし学習．画像内の小さなパッチであっても物体検
出的に類似領域を計算可能である．
さらに，パッチAとBを学習することにより，類似するパ
ッチCを予測するというものであるP(C=1|A, B)．
・パッチの評価だけでなく，似たようなパッチを予測する
働きを持たせることにある．
・Object Discovery [Rubinstein+, CVPR13]
(http://people.csail.mit.edu/mrub/ObjectDiscovery/)のよう
な側面も持つと考えられる．
Links
論文 http://arxiv.org/pdf/1511.06811.pdf
著者 http://web.mit.edu/phillipi/

Makarand Tapaswi, Yukun Zhu, Rainer Stiefelhagen, Antonio Torralbe, Raquel Urtasun, Sanja Fidler,
“MovieQA: Understanding Stories in Movies through Question-Answering”, in CVPR, 2016.
【18】
Keywords: Movie Question Answering
新規性・差分
概要
動画像に対する質問回答文 (Movie Question Answering;
MovieQA)のデータを提供する．右図はデータや質問回答
の例を示す．データセットには400動画に対して15,000の
回答文が対応付けられる．質問にはWho, What, Whom,
Whyなどで始まる文が含まれ，それに回答するために画像
や時系列情報を解析するタスクを与える．
・質問回答のみでなく，動画に対する回答文の問題を提供
し，そのデータセットも公開した．
・表は各QAデータセットの比較である．ひとつの動画に
対して複数の回答文が含まれていることが非常に大きな進
捗である．動画説明文からさらに先に踏み込めている．
Links
論文
http://www.cs.toronto.edu/~urt
asun/publications/Tapaswi_et
al_cvpr16.pdf
プロジェクト
http://movieqa.cs.toronto.edu/
home/
動画像に対応するストーリーとその質問
文を入れて，Softmax層ではその回答文を
Ground Truthとしてネットワークを構成
する．

Xiaozhi Chen, Kaustav Kundu, Ziyu Zhang, Huimin Ma, Sanja Fidler, Raquel Urtasun, “Monocular 3D
Object Detection for Autonomous Driving”, in CVPR, 2016.
【19】
Keywords: Autonomous Driving, 3D Object Detection
新規性・差分
概要
自動運転の文脈で単眼カメラからの3次元物体検出を実行
する．物体検出の枠組みは通常の物体検出の流れを参考に
していて，候補領域の抽出から物体の識別を行う．本論文
が着目した範囲はエネルギーの最小化により3次元空間内
の候補領域を生成することである．さらに，物体検出をす
るのみならず，3次元情報を用いることで，インスタンス
レベルのセグメンテーションを獲得できる．
・自動運転の文脈で用いることができるよう，動的なカメ
ラからでも3次元の物体候補領域が抽出できる．3次元情報
はGround-Planeの事前情報により得ている．
Links
論文
http://www.cs.toronto.edu/~urtasun/
publications/chen_etal_cvpr16.pdf
Raquel Urtasun
http://www.cs.toronto.edu/~urtasun/
3次元物体候補領域の手がかりとなるのはクラス情報(SegNetを使用)，インスタ
ンス情報，外輪郭，物体形状，コンテキスト，それからGround-Planeを事前情
報とした一情報である．これらの最適化問題によりパラメータを決定する．最
終的な結果はNMSを通り抜けたのちに得られる．識別はFast R-CNNを用いる．
各手法(SS，EdgeBox)と比較した際
のAverage Precision
KITTI Object Detection Benchmark
のAverage Precisionの比較

Wenjie Luo, Alexander G. Schwing, Raquel Urtasun, “Efficient Deep Learning for Stereo Matching”, in
CVPR, 2016.
【20】
Keywords: Siamese Network, Stereo Matching
新規性・差分
概要
Siamese Networkを用いた計算において，非常に高速なパ
ッチ間の類似度計算を実装し，ステレオマッチングの処理
速度を1秒以内にした．さらに，複数の可能な限りの視差
を複数クラス分類の枠組みで扱えるようにした．
・2015年くらいからCNN/Siamese Netを用いたステレオ
マッチングの研究は [Zbontar+, JMLR2016]や[Zagoruyko+,
CVPR2015]が挙げられるが，非常に正確かつ1.0second以
内での処理を目指した(ただし，GPUは使う)．
・従来のSiamese Networkと異なるのは，統合レイヤ
(Concatenation layer)と以下に続くレイヤ(Subsequent
layer)を単一の積を計算するレイヤ(Single Product layer)に
置き換えたことである．
Links
論文
http://www.cs.toronto.edu/~urtasun/publications/luo_etal_cvpr1
6.pdf
プロジェクト http://www.cs.toronto.edu/deepLowLevelVision/
コード https://bitbucket.org/saakuraa/cvpr16_stereo_public
図は左右の視差画像を示し，
畳み込みが行われたあと，積
を計算して相関を計算する．
表はKITTI2012ベンチマーク
のステレオタスクに対して行
った評価．距離推定の誤差や
速度を高速化した．

Limin Wang, Zhe Wang, Sheng Guo, Yu Qiao, “Better Exploiting OS-CNNs for Better Event Recognition
in Images”, in ICCVW, 2015.
【21】
Keywords: Two-Stream ConvNet, Event Recognition
新規性・差分
概要
Two-Stream ConvNetをイベント認識用のデータで学習し
直したObject-Scene Convolutional Neural Network (OS-
CNN)の提案．Two-StreamはそれぞれImageNetで学習済
みの物体情報やPlaces205で学習済みのシーン情報を用い
て，さらにタスクに合わせてFine-tuningを行う．全結合層
の出力をそのまま用いるだけでなく，CNN特徴をFisher
Vectorにてエンコードして用い，識別器を構成することで
精度を向上させた．
・オリジナルのTwo-StreamではSoftmax層の出力をSVM
により学習していたが，ここでは値を蓄積して用いること
でラベルを推定する．
・CNNを特徴抽出器として扱い，局所的かつ大域的な特徴
の評価を行う．
・ICCVWorkshopとして開催されたChaLearn LAPにて3位
を獲得した．
Links
foundation.org//openaccess/content_iccv_2015_workshops/w1
1/papers/Wang_Better_Exploiting_OS-
CNNs_ICCV_2015_paper.pdf

Edgar Simo-Serra, Hiroshi Ishikawa, “Fashion Style in 128 Floats: Joint Ranking and Classification using
Weak Data for Feature Extraction”, in CVPR, 2016.
【22】
Keywords:
新規性・差分
概要
多様なファッション画像を効果的に分類できる特徴量抽出
手法を提案する．提案手法では，ランキングロスとクロス
エントロピーロスを合わせて畳込みニューラルネットワー
クを学習させることで，ノイズが多く含まれるようなデー
タセットに対しても良好に特徴抽出が行えることを示した．
(下記プロジェクトページより参照)
・インターネットから得られる画像はラベルが十分につい
ているわけではないので，弱教師あり学習の枠組みであつ
かえるようにする．
・コンパクトかつ識別性に優れたCNN特徴量を，比較的少
ないデータから調整する．
・ユークリッド空間にて距離計算できるようにする．さら
に下図のように可視化することでファッションの解析を効
果的に行う．
Links
論文
http://hi.cs.waseda.ac.jp/~esimo/publications/SimoSerraCVPR
2016.pdf
プロジェクト
http://hi.cs.waseda.ac.jp/~esimo/ja/research/stylenet/

David F. Fouhey, Abhinav Gupta, Andrew Zisserman, “3D Shape Attributes”, in CVPR, 2016.
【23】
Keywords: 3D object recognitiion, Shape Attributes
新規性・差分
概要
3次元物体のアトリビュートを単一の画像から推定する．
見えの情報からいかに3次元の形状を説明する属性を推定
するかが非常に困難な課題である．本論文では，3次元形
状のアトリビュートをCurvature Properties, Contact
Properties, Volumetric Propertiesの3分類，12種類に分け
て分類する．データはFlickrにより収集され，アノテーシ
ョンした後にラベル付けのミスを修正した．
・複雑な3次元形状(例：上図)のアトリビュートを推定する
CNNアーキテクチャを構築した．
・大規模データベースを提供する．DBには143,000枚の画
像と属性情報が含まれている．
・アトリビュートの推定が72.3%と非常に高精度．
Links
論文
http://www.robots.ox.ac.uk/~vgg/publications/2016/Fouhey16/f
ouhey16.pdf
プロジェクト
http://www.robots.ox.ac.uk/~vgg/publications/2016/Fouhey16/
提案のMulti-task Network．最
終層が分岐しており，12種の
アトリビュート推定器と形状
を説明する特徴に分類されて
いる．

Zhile Ren, Erik B. Sudderth, “Three-Dimensional Object Detection and Layout Prediction using Clouds of
Oriented Gradients”, in CVPR, 2016. (oral)
【24】
Keywords: Clouds of Oriented Gradients (COG), 3D Object Recognition
新規性・差分
概要
3次元物体認識のための特徴量Cloud of Oriented Gradients
(COG)を提案する．COGはHOGのように，点群データか
ら効果的に勾配を抽出するための特徴である．論文中では
Manhattan Voxelも提案し，3次元の部屋のレイアウト推定
にも貢献する．6x6x6voxelsのグリッド単位で点群の密度
や画像を参照した際の勾配を計算．
・シンプルなアイディア(HOGのように点群の密度や勾配
を扱うCOGを提案)を三次元物体認識に対して適用し，高
水準の成果をあげた．
・Manhattan Voxelも提案し，3次元のレイアウト推定に適
用した．空間を72分割(72dimsとして表現)する．
Links
論文
https://cs.brown.edu/people/sudderth/papers/cvpr16cog.pdf
著者 http://cs.brown.edu/people/ren/
プロジェクト

Timo Hackel, Jan D. Wegner, Konrad Schindler, “Contour detection in unstructured 3D point clouds”, in
CVPR, 2016. (oral)
【25】
Keywords: Point Cloud Contour Detection
新規性・差分
概要
屋外環境における3次元点群から外輪郭を抽出するための
手法を提案する．2次元画像でなく，3次元点群情報から外
輪郭を復元するのは探索する空間が膨大で非常に難しい問
題であるが，(1) 各点群の「外輪郭」尤度を計算 (2) 候補
同士をつないでいく (3) MRFの推定により接続/除去を行い，
点群における外輪郭推定．
・3次元点群からの「外輪郭尤度」の計算である．幾何的
に隣接する点群との関係性を評価してスコアを算出する．
この尤度に従って，次の行程で詳細に外輪郭を評価．
・点群同士をつないでエッジに，さらにMRFによる推定で
外輪郭を推定する．
・Precision-Recall curveを下図に示した．パラメータ調整
やCanny 3Dとの比較が含まれる．
Links
論文 https://www.ethz.ch/content/dam/ethz/special-
interest/baug/igp/photogrammetry-remote-sensing-
dam/documents/pdf/timo-jan-cvpr2016.pdf
著者
http://www.prs.igp.ethz.ch/content/specialinterest/baug/institute
-igp/photogrammetry-and-remote-
sensing/en/group/people/person-detail.html?persid=186562

Limin Wang, Yu Qiao, Xiaoou Tang, “Action Recognition with Trajectory-Pooled Deep-Convolutional
Descriptors”, in CVPR, 2015.
【26】
Keywords: TDD; Trajectory-Pooled Deep-Convolutional Descriptors, IDT, Two-stream ConvNet
新規性・差分
手法
結果
概要
単純にはImproved Dense Trajectories (IDT)とTwo-Stream
Convolutional Networks (Two-Stream ConvNet)の統合によ
り，ハンドクラフト特徴や深層学習の特徴jマップを統合す
る．IDTの密な動線上を用い，Two-Streamの畳み込みマッ
プにアクセスして特徴抽出，Fisher Vectorsによるエンコ
ーディングを実行．
・ハンドクラフトな手法とディープ特徴のいい面を効果的
に統合した．行動認識においては，動的な部位と学習によ
り得られた特徴を融合してFisher Vectorsにより円コーデ
ィンするとさらなる精度の向上につながった．
・UCF101にて91.5%，HMDB51にて65.9%とそれまでの
state-of-the-artを大きく塗り替えた．
IDTの動線抽出方法とTwo-streamの特徴マップを適用する．IDTはそのまま
の仕組みを用いて，CNNの特徴マップにアクセスする際には拡大・縮小を考
慮．Two-streamのSpatialNetはImageNetで学習済みのモデルを初期パラメー
タとして，UCF101により学習，その後HMDB51にて転移学習．動画像を通
してエンコーディングを実行するため，ひとつの動画に対してひとつのベク
トルを算出．
Fisher VectorsによるエンコーディングのPCA
圧縮は64次元，特徴マップのChannel正規化や
Spatio-temporal正規化は両者ともに統合した
方が精度が向上することが判明した．畳み込
みマップについて，Conv-3, 4, 5はReLU Layer
を，Conv-1, 2についてはMax-Pool Layerを参
照する．結果，UCF101にて91.5%，HMDB51
にて65.9%を達成．
Links
foundation.org/openaccess/content_cvpr_2015/papers/Wang_
Action_Recognition_With_2015_CVPR_paper.pdf
プロジェクト https://wanglimin.github.io/tdd/index.html
参考 (VGG_CNN_M_2048)
https://gist.github.com/ksimonyan/78047f3591446d1d7b91#file
-readme-md)

Tsung-Yu Lin, Aruni RoyChowdhury, Subhransu Maji, “Bilinear CNN Models for Fine-grained Visual
Recognition”, in ICCV, 2015.
【27】
Keywords: Bilinear CNN, Fine-grained Visual Recognition
新規性・差分
概要
Fine-grainedな認識に向けた，2つの特徴抽出器で構成され
る双線形CNNアーキテクチャの提案
・局所特徴のペアの対応をモデル化することでfine-
grainedな分類に特に有用
・勾配の計算を簡素化し，画像のラベルのみでend-to-end
な学習が可能
Links
code https://bitbucket.org/tsungyu/bcnn.git
プロジェクト http://vis-www.cs.umass.edu/bcnn/
テスト時，入力画像は2つのCNN層A, Bに入力される．
出力画像の各位置で外積を使用して乗算し，プーリングを行う．
分類の予測を得るために，分類層へ入力する．

Hao Su, Charles R. Qi, Yangyan Li, Leonidas J. Guibas, “Render for CNN: Viewpoint Estimation in
Images Using CNNs Trained with Rendered 3D Model Views”, in ICCV, 2015.
【28】
Keywords: CNN, View Point Estimation, Rendered 3D Model Views,
新規性・差分
概要
2D画像から視点推定を行うCNNフレームワークの提案
PASCAL 3D+ benchmarkにおいてアウトパフォームな結
果を示した．
レンダリングベースの合成画像とCNNを組み合わせること
で，トレーニングデータの不足と能力不足に対処
Links
論文 http://arxiv.org/pdf/1505.05641v1
プロジェクト
https://shapenet.cs.stanford.edu/projects/RenderForCNN/
code https://github.com/shapenet/RenderForCNN
大規模な3Dモデルのコレクションからレンダリングされた画像を
実際の画像上に合成することでトレーニング画像を生成．
CNNは，Ground Truthの視点画像を学習．
テストデータとして実際の画像を利用して，視点の推定を行う．
CNNのトレーニング合成画像生成のパイプライン

Khurram Soomro, Haroon Idrees, Mubarak Shah, “Action Localization in Videos through Context Walk”,
in ICCV, 2015.
【29】
Keywords: Action Localization, Context Walk
新規性・差分
概要
・動画内の行動のローカライズを効率的に行うために，前
後のコンテキストの関係を学習するアプローチの提案
・いくつかのデータセットでの検証の結果，提案手法は行
動のローカライズに非常に有用であると結論づけた．
・行動の境界を維持し，問題の複雑さを軽減するために動
画をsupervoxelに分割する．
・コンテキストの関係はトレーニング中に学習
・テスト動画を入力すると，supervoxelをランダムに選択
し，前回の行動に属するsupervoxelの確率を推定，行動提
案を行う．
・SVMを用いて行動提案から行動を決定する．
Links
論文
http://www.cs.ucf.edu/~haroon/Soomro_ICC
V2015.pdf
動画
https://www.youtube.com/watch?v=Mbs5oR
Wpwus

Ye Luo, Loong-Fah Cheong, An Tran, “Actionness-assisted Recognition of Actions”, in ICCV, 2015.
【30】
Keywords: Actionness, Action Proposal, Action Recognition
新規性・差分
概要
動画像から行動候補領域(Action Proposal, Actionness)を抽
出する論文．行動の候補領域を(1) 急な変化 (Sudden
Changes)，(2) 同期した動き (Synchronized Motions)， (3)
繰り返し動作 (Repetitive Motions)，(4) 顕著な領域
(Salient Region)の情報から推定する．
・行動に対する候補領域を複数情報から推定する枠組みを
提案した．急な変化・同期・繰り返し動作・顕著領域から
情報を抽出．
Links
foundation.org/openaccess/content_iccv_2015/papers/Luo_Act
ionness-Assisted_Recognition_of_ICCV_2015_paper.pdf
ビデオ https://www.youtube.com/watch?v=rKPBWE4kMNE
コード https://github.com/antran89/BoW_frameworks

Hang Su, Subhransu Maji, Evangelos Kalogerakis, Erik Learned-Miller, “Multi-view Convolutional Neural
Networks for 3D Shape Recognition”, in ICCV, 2015.
【31】
Keywords: Multi-view CNN, 3D Shape Recognition
新規性・差分
概要
・2次元の画像から，3次元の物体認識を行うCNNアーキ
テクチャの提案．
・単一の視点からの物体認識において，最先端の3次元形
状記述子よりも遥かに高い精度を実現．また複数視点から
の認識での場合，さらに高精度．
・3次元の物体を複数視点から撮影・レンダリングしCNN
に学習(右図上にパイプラインを示す)
・コンパクトな記述子かつ高精度
Links
プロジェクトhttp://vis-www.cs.umass.edu/mvcnn/
動画 http://vis-
www.cs.umass.edu/mvcnn/docs/1694_video.mp4
Code https://github.com/suhangpro/mvcnn

Zezhou Cheng, Qingxiong Yang, Bin Sheng, “Deep Colorization”, in ICCV, 2015.
【32】
Keywords: Colorization
新規性・差分
概要
グレースケール画像をカラー付きの画像に変換する問題を
扱う．参照する画像からグレースケール/カラーの対応を
学習し，グレースケール画像の入力からカラー付き画像を
復元する．深層畳み込みネットによりカラー画像を復元．
・ディープラーニングベースのグレースケール画像に対す
る色付けを著者らの調査において初めて行い，実験により
有効性を示した．
・Low-levelからHigh-levelまでの画像特徴により，情報量
を多く含みかつ識別性に優れた表現を実行．グレースケー
ルの色付けに特化した深層学習のモデルを構築した．
Links
foundation.org/openaccess/content_iccv_2015/papers/Cheng_
Deep_Colorization_ICCV_2015_paper.pdf
プロジェクト

Richard Zhang, Philip Isola, Alexei A. Efros, “Colorful Image Colorization”, in arXiv pre-print 1603.08511,
2016.
【33】
Keywords: Colorization
新規性・差分
概要
深層学習を用いたグレースケール画像の色付けに関する論
文である．ここでは従来より綺麗な色付けを目的としてお
り，畳み込みやDeep Supervisionを含む構造により色付け
を行う．評価は”Colorization Turing Test”により行い，実
に20%もの人をだますことができたと主張．
・学習画像を100万枚以上とデータ量を増やすことで可視
化性に優れたカラー画像を生成可能とした．
・多様性に富んでいる色の表現ができるようになった
Links
論文 http://arxiv.org/pdf/1603.08511.pdf
プロジェクト http://richzhang.github.io/colorization/
コード https://github.com/richzhang/colorization
複数回畳み込みとReLUを繰り返し，それぞれバッチ正規
化を行う．このカラーリングの構造に対してプーリング層
は含まれてない．DeepSupervisionを6,7,8層に採用してお
り，学習による損失をすでに中間層にて学習する．損失関
数はCross-Entropy Lossにより計算する．最初の5層は
VGGNetにより初期値を定め，プーリング層を除去したも
のである．

Satoshi Iizuka, Edgar Simo-Serra, Hiroshi Ishikawa, “Let there be Color!: Joint End-to-end Learning of
Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification”, in
SIGGRAPH, 2016.
【34】
Keywords: Colorization, CNN
概要
本研究では，ディープネットワークを用いて白黒画像をカラー画像に自動
変換する手法を提案する．提案手法では，画像の大域特徴と局所特徴を考
慮した新たな畳込みネットワークモデルを用いることで，画像全体の構造
を考慮した自然な色付けを行うことができる．提案モデルにおいて，大域
特徴は画像全体から抽出され，局所特徴はより小さな画像領域から計算さ
れる．これらの特徴は“結合レイヤ”によって一つに統合され，色付けネット
ワークに入力される．このモデル構造は入力画像のサイズが固定されず，
どんなサイズの画像でも入力として用いることができる．また，モデルの
学習のために既存の大規模な画像分類のデータセットを利用し，それぞれ
の画像の色とラベルを同時に学習に用いることで，効果的に大域特徴を学
習できるようにしている．提案手法により，100年前の白黒写真など，様々
な画像において自然な色付けを実現できる．色付けの結果はユーザテスト
によって評価し，約90%の色付け結果が自然であるという回答が得られた．
（プロジェクトページより）
Links
論文 http://hi.cs.waseda.ac.jp/~iizuka/projects/colorization/data/colorization_sig2016.pdf
プロジェクト http://hi.cs.waseda.ac.jp/~iizuka/projects/colorization/ja/
プロジェクト2 http://hi.cs.waseda.ac.jp/~esimo/ja/research/colorization/
コード https://github.com/satoshiiizuka/siggraph2016_colorization

Xiao Chu, Wanli Ouyang, Wei Yang, Xiaogang Wang, “Multi-task Recurrent Neural Network for
Immediacy Prediction”, in ICCV, 2015.
【35】
Keywords: Multi-task Recurrent Neural Network, Immediacy Predction
新規性・差分
概要
・静止画から人物のインタラクションの予測に向けた
Multi-task Recurrent Neural Networkの提案．
・人物のインタラクションおよび骨格情報の注釈が付けら
れた大規模なデータセットの提案
Multi-task Recurrent Neural Networkは，提案したデータセ
ットのインタラクション・骨格情報から，予測したデータ
間の関係を学習する
Links
foundation.org/openaccess/content_iccv_2015/papers/Chu_M
ulti-Task_Recurrent_Neural_ICCV_2015_paper.pdf
プロジェクト
http://www.ee.cuhk.edu.hk/~xgwang/projectpage_immediacy.h
tml

Mark Yatskar, Luke Zettlemoyer, Ali Farhadi, “Situation Recognition: Visual Semantic Role Labeling for
Image Understanding”, in CVPR, 2016.
【36】
Keywords: Role Recognition, Image Understanding, Situation Recognition, FrameNet, Dataset
新規性・差分
概要
画像内の詳細な理解を行う．画像に写っているメインの
物体(人，動物など)やその目的，道具，場所などの関係
性や役割なども推定可能とする．500の行動，1700の役
割(Role)，11,000の物体，125,000枚の画像を含む大規
模データを構成した．この大規模なデータはFrameNet
と呼ぶこととする．
・画像の総合的な理解のために大規模なデータセットであ
るFrameNetを提案した．
・各行動・役割・物体・道具などの要素を含んでいる非常
に困難な課題を提供した．
・VGG-CRFの枠組みで識別を実行したが，思うように精
度が出ていない．この問題はこれから取り扱われるべき課
題である．
Links
論文
http://homes.cs.washington.edu/~my89/publications/situations.
pdf
プロジェクト https://homes.cs.washington.edu/~ali/index.html

Xiaolong Wang, Ali Farhadi, Abhinav Gupta, “Actions ~ Transformation”, in CVPR, 2016.
【37】
Keywords: Action Recognition, Precondition
新規性・差分
概要
人物行動が生起する前の事前状態をプレコンディション
(Precondition)と定義して，「起こりそう」な行動を前の状
態から察知，また生起した際の認識精度を高めるというア
イディア．Siamese Networkを用いてこのアイディアを実
装した．今回はUCF101やHMDB51などマルチメディアの
データセットに対して実験を行った．
・行動認識の新しい表現方法を提案
・UCF101にてstate-of-the-artな精度を達成した．UCF101
に対して92.4%，HMDBに対して63.4%という数字を実現
した．
・Cross-Categoryのタスクを提案し，ACT datasetを提案
した．同データには43の行動ラベル，16グループ，11234
の動画が含まれる．
Links
論文
http://www.cs.cmu.edu/~xiaolonw/papers/precondition_effect_
CVPR16.pdf
プロジェクト

Iro Laina, Christian Rupprecht, Visileios Belagiannis, Federico Tombari, Nassir Navab, “Deeper Depth
Prediction with Fully Convolutional Residual Networks”, in arXiv pre-print 1606.00373, 2016.
【38】
Keywords: Deep Residual Network (ResNet), CRF, Depth Prediction
新規性・差分
概要
単眼のRGB画像を入力して距離画像を復元する問題．正解値が距
離画像であり，Deep Residual Networks (ResNet)を用いることで
高精度な推定をするが，提案手法ではさらに少ないパラメータで
深い構造を持つように設計された．パラメータ数を抑えたことで
学習画像の枚数を抑えることにも成功．損失関数にはHuber lossを
用いるのが良いことがわかった．Un-poolingやUp-projectionも採用
して，畳み込みマップから距離画像への対応を図った．
・Up-projectionを導入して畳み込みマップから解像度をあげて距
離画像へと対応する．パラメータは1.0/3.5に減少し，少ない学習
サンプルでも距離画像が復元できるようになった．
・高精度に距離画像を推定できるようになったことで単眼RGB画
像からのSLAMを実行した．
Links
プロジェクト

Limin Wang, Sheng Guo, Weilin Huang, Yu Qiao, “Places205-VGGNet Models for Scene Recognition”,
in arXiv pre-print 1508.01667, 2015.
【39】
Keywords: Scene Understanding, Places205, Places365
新規性・差分
概要
シーン認識のチャレンジであるPlaces205 datasetを用いた
コンペティションの手法について提案．VGGNetをベース
としたアーキテクチャは11, 13, 16, 19層を提案した．
Places205のみならず，MIT67やSUN397といったシーン
認識のデータベースに対しても処理を行った．
・Places205にて学習済みのVGGNetモデルを提供した．
GitHubにコードをアップロードした．
・全チーム中2位の精度を達成した．(表参照)
・MIT67やSUN397においてもCNN off-the-shelfの要領で
転移学習による認識が可能になった．
Links
論文 http://wanglimin.github.io/papers/WangGHQ15.pdf
プロジェクト https://github.com/wanglimin/Places205-
VGGNet
Scene205 dataset
http://places.csail.mit.edu/downloadData.html

Xiaojiang Peng, Limin Wang, Zhuowei Cai, Yu Qiao, Qiang Peng, “Hybrid Super Vector with Improved
Dense Trajectories for Action Recognition”, in ICCV Workshop on THUMOS, 2013.
【40】
Keywords: Action Recognition, THUMOS
新規性・差分
概要
中国のShenzhen Institutes of Advanced Technology
(SIAT)の行動認識コンペティションの提案手法の紹介．
ベースアルゴリズムにはImproved Dense Trajectories
(IDT)を使用するが，ふたつのSuper VectorであるFisher
Vectors (FV)やVector of Locally Aggregated Descriptors
(VLAD)を組み合わせたHybrid Super Vector (HSV)を用い
ることで高精度な認識を達成した．
・THUMOSのデータであるUCF101に対して87.46%を記
録し，全体の4位になった．
・実験の結果，特徴量の前処理(コードワードや正規化)や
ベクトルの正規化が非常に重要であることが判明した．
・IDTのベクトルの次元数を落とした方がよかった (20, 48,
54, 48, 48 for traj, hog, hof, mbhx, mbhy) その後，
whiteningをする．
・VLFeatを用いて，GMMベース(クラスタリング数 512)
のFV，K-meansベース(クラスタリング数512)のVLADを
実装した．
・FVやVLADを連結ベクトルとしてSVMにて学習．One -
vs - allのSVM識別器を採用し，Cの値は100に設定．
Links
論文
http://wanglimin.github.io/contests/PengWCQ_Thumos13.pdf
プロジェクト http://crcv.ucf.edu/ICCV13-Action-Workshop/

Limin Wang, Zhe Wang, Yuanjun Xiong, Yu Qiao, “CUHK&SIAT Submission for THUMOS15 Action
Recognition Challenge”, in CVPR Workshop on THUMOS, 2015.
【41】
Keywords: THUMOS 2015, Action Recognition
新規性・差分
概要
Chinese University of Hong Kong (CUHK) & Shenzhen
Institutes of Advanced Technology (SIAT)の行動認識コ
ンペティションTHUMOS2015の提案手法．ベースアル
ゴリズムにはTwo-Stream ConvNet [Simonyan+,
ICLR15]を用いているが，さらにネットワーク構造を深
くして特徴抽出を高度にする．さらにImproved
Trajectoriesを用いて畳み込み特徴マップにアクセス，
Fisher Vectorによるエンコーディングを行う．
・THUMOS15のデータセットにて68%を記録し，全体
の5位となった(右表)．
・Two-StreamにてClarifai Net (AlexNetベース)や
GoogLeNet, VGGNetを実装して比較したところ，空間
的にも時間的にもVGGNetが有効であることが判明した．
Two-streamの空間・時間統合，さらにIDT+FVとも統合
することで68.1%にまで向上する．
Links
論文
http://storage.googleapis.com/www.thumos.info/thumos15_not
ebooks/TH15_CUHK&SIAT.pdf
プロジェクト http://www.thumos.info/
スライド
http://wanglimin.github.io/contests/WangWXQ_Thumos15_slid
e.pdf

Bhrooz Mahasseni, Sinisa Todorovic, “Regularizing Long Short Term Memory with 3D Human-Skeleton
Sequences for Action Recognition”, in CVPR, 2016.
【42】
Keywords: Skeleton, Action Recognition
新規性・差分
概要
大規模データにおいて，映像からスケルトンを推定し，さらには行動のラ
ベルを学習して行動認識を実行する．CNNの特徴量を取り出し，
Recurrent Neural Networks (RNN)のうちLong Short Term Memory
(LSTM)を学習する．
右図の右は教師なし学習による3次元スケルトン，v_t, s_tはそれぞれ時間t
におけるビデオやスケルトンを示す．r_vやr_sはLSTMやencoder LSTMの
出力を表す．y_tやy_tのハットは正解値と推定値を示し，この両者により
損失を計算する．hはそれぞれLSTMの隠れ層を示す．
・LSTMの学習について新しい枠組みを提案した．通常はdropoutやweight
decayにより最適化を行うが，ここではLSTMやeLSTMの誤差をユークリ
ッド距離で計測しパラメータを調整する．誤差伝播の仕組みは
Backpropagation through Time (BPTT)により操作した．
・提案手法はUCF101に対して85.7%，HMDB51に対して55.3%を達成し，
通常のLSTMのみではそれぞれ75.2%(UCF101)，43.1%(HMDB)だったの
で提案法の効果を示した．
Links
論文
http://web.engr.oregonstate.edu/~sinisa/research/publications/
cvpr16_multimodal.pdf
プロジェクト

Rasmus Rothe, Radu Timofte, Luc Van Gool, “Some like it hot - visual guidance for preference
prediction”, in CVPR, 2016.
【43】
Keywords: Autonomous Rating
新規性・差分
概要
Collaborative Filteringを用いた評価付けに関する論文．論
文中ではデートサイトから抽出した評価付けデータを元に
している．写真や評価付けを行ったアクセス履歴をもとに
して結果を推定するパラメータを学習する．
・デートサイトから取得したプロフィールやアクセス履歴，
評価などによるデータベースを作成した．
・視覚的な情報を含めたCollaborative Filteringによる解析
手法を提案．
・最終的には画像のみからの効果的な回帰モデルを提案．
評価値を画像のみから推定できるようになった．
Links
プロジェクト http://howhot.io/
著者 http://www.vision.ee.ethz.ch/~timofter/

Shengfeng He, Rynson W.H. Lau, Qingxiong Yang, “Exemplar-Driven Top-Down Saliency Detection via
Deep Association”, in CVPR, 2016.
【44】
Keywords: Top-down saliency
新規性・差分
概要
Knowledgeベースの顕著性マップ生成方法を探る．具体的
には，カテゴライズされたラベルを探索して顕著性マップ
を生成．このトップダウンのカテゴリ数は最大で4に設定
する．モデルは2段階のCNNモデルを構築し，参照物体
(exemplar)とクエリ(query)となる物体内の関連付けを行い，
顕著性マップを生成．最初のステージでは物体間の関連付
け，次のステージでは背景との分離を試みた．
・対象となる物体をあらかじめ決めておく知識ベースの顕
著性マップの提案と，2段階のCNNモデルを提案．
・Multi-exemplar ベースのCNNモデルを用いて初めて顕著
性推定を実施した．
Links
論文
http://www.shengfenghe.com/uploads/
1/5/1/3/15132160/exemplar_saliency.p
df
プロジェクト(コードあり)
http://www.shengfenghe.com/exemplar
saliency.html

Fang Wang, Le Kang, Yi Li, “Sketch-based 3D Shape Retrieval using Convolutional Neural Networks”, in
CVPR, 2015.
【45】
Keywords: 3D Object Retrieval, Sketck Retrieval
新規性・差分
概要
2次元スケッチをクエリ(入力)として，3次元モデルから対
象物体を検索する．検索するサーバ側には3次元モデルを
保持しておき，”best view”な2次元投影画像でマッチング
する．マッチングのモデルにはSiamese Convolutional
Networkを用い，片方にはスケッチを，もう一方には3次元
モデルを2次元に投影したモデルを用いる．
・スケッチを入力とした特徴表現方法としてSiamese
Networkを学習する．さらには，3次元モデルからの2次元
投影を実行してベストビューを選択する問題を解いた．
・2つのSiamese Networkを適用し，Cross-Domainでの類
似度を計測した．
・2つのデータセットにおいてstate-of-the-artな精度を達成
した．
Links
論文 http://users.cecs.anu.edu.au/~yili/publication/cvpr-2015-sbsr.pdf
プロジェクト http://users.cecs.anu.edu.au/~yili/cnnsbsr/
コード http://users.cecs.anu.edu.au/~yili/cnnsbsr/software/sbsr-cvpr15.zip
GitXiv http://gitxiv.com/posts/L63GfSyXG4yneS5mt/sketch-based-3d-
shape-retrieval-using-convolutional-neural

Nicholas Rhinehart, Kris M. Kitani, “Learning Action Maps of Large Environments via First-Person
Vision ”, in CVPR, 2016.
【46】
Keywords: Human Centric Functional Description, Action Map
新規性・差分
概要
3次元のマップと人物の行動の履歴から行動するマップ
(Action Map)を空間中に生成する．一人称視点からの入力
からStructure-from-Motionにより3次元のマップを生成し
て人物の行動する領域に対して履歴を投影する．
・従来では三人称視点からの解析がメインであった
Function認識を，一人称視点から実現した．
・Action MapというConceptiualな問題を提起した．
Links
論文 http://www.cs.cmu.edu/~kkitani/pdf/RK-CVPR16.pdf
プロジェクト
http://www.cs.cmu.edu/~nrhineha/slides/action_maps_2016_3
0min.pdf

Huan Fu, Chaofui Wang, Dacheng Tao, Michael J. Black, “Occlusion Boundary Detection via Deep
Exploration of Context”, in CVPR, 2016.
【47】
Keywords: Occlusion Boundary Detection
新規性・差分
概要
オクルージョンしている境界領域を識別するために(i) 位置
のパターン (local contextual correlations in pixel labeling)
や(ii) 周囲環境の観測 (contextual correlations between the
labeling of pixels)，(iii) 時系列的なコンテキスト (temporal
contextual information in video sequences)を解析する．手
法としてはConvolutional Neural Networks (CNN)や
Conditional Random Fields (CRF)を用いる．
・CMUのベンチマークにおいて従来のstate-of-the-artな結
果を超越した．数値的には0.62から0.71に向上した．
・
Links
論文 http://files.is.tue.mpg.de/black/papers/FuCVPR2016.pdf
プロジェクト https://ps.is.tuebingen.mpg.de/publications/fu-
cvpr-2016

Wei Shen, Kai Zhao, Yuan Jiang, Yan Wang, Zhijiang Zhang, Xiang Bai, “Object Skeleton Extraction in
Natural Images by Fusing Scale-associated Deep Side Outputs”, in CVPR, 2016.
【48】
Keywords: DeepSkeleton
新規性・差分
概要
一般的な物体のスケルトン推定を実行するアルゴリズムを
提案．人物に限らずあらゆる物体や動物の姿勢を推定する
(上図)ために，Oxford VGG-16をベースとする(下図)が，
畳み込みの行程によって推定する部位を分け，最後に結果
を統合する．各層により得意・不得意を分別して学習する．
雰囲気的には与えられた前景の細線化を行うものである．
・煩雑な自然シーンにおいても物体のスケルトンを効果的
に推定することができる．
・色やテクスチャ，形状やサイズなどの多様性を許容して
物体のスケルトンを推定．
Links
コード https://github.com/zeakey/DeepSkeleton

Keywords:
新規性・差分
手法
結果
概要
物体のスケッチ画像を詳細物体分類に用
いた手法(fine-graind sketch-based
image retieval)
１．物体とフリーハンドの画像を対応し
たデータセットを作成
2. 抽象的な画像を用いた画像識別を行っ
た
データセット例を以下に示す．また識別
を行うアーキテクチャを以下に示す．デ
ータオーギュメンテーションはStroke
Removalを用いて一枚の画像から9枚に
拡張する
物体分類の従来手法
と比較し識別性能が
向上した．
Qian Yu+, “Sketch Me That Shoe”, in CVPR, 2016.
【49】
Links
https://qmro.qmul.ac.uk/xmlui/bitstream/handle/123456789/11936/Hosped
ales%20Sketch%20Me%20That%20Shoe%202016%20Published.pdf?seq
uence=1

Keywords:
新規性・差分
手法
結果
概要
CNNアーキテクチャとRNNを組み合わ
せマルチクラス分類をend-to-endで行う
フレームワークを提案した論文
end-to-endでマルチクラス分類を行う
コンパクトかつ強力な多クラス分類モデ
ルの設計
implicit attention mechanismは画像中の
小さな物体認識に有効であることも示さ
れた．
フレームワークの概略図を以下に示す．フレームワークは、ラベル
の依存関係だけでなく、画像ラベルの関係を特徴づけるために、
joint embedding spaceを学習する．赤と青のドットはそれぞれ、ラ
ベルと画像であり、黒丸は画像およびRNN出力の合計です。RNNは、
順次、joint embedding spaceにラベル埋め込みをリンクすることに
より、関節埋め込み空間でのラベルの共起の依存関係をモデル化.
各時間ステップで、ラベルの確率は、画像の埋め込みおよびRNN出
力に基づいて計算される．以下にRNNのネットワーク構成図を示す．
NUS-WIDEとMSCOCOで実験従来の手
法より良い結果となった
Jiang Wang+, “CNN-RNN: A Unified Framework for Multi-label Image Classification”, in CVPR, 2016.
【50】
Links
PDF

David Ferstl, Christian Reinbacher. , Gernot Riegler, Matthias Rüther, Horst Bischof, “Learning Depth
Calibration of Time-of-Flight Cameras”, in BMVC, 2015.
【51】
Keywords: Time of Flight (ToF), depth sensor, RGB-D camera, Random Regression Forest (RRF)
新規性・差分
手法概要
・ToF型カメラは奥行きマップの品質はシーン内のシーンジ
オメトリと表面特性に依存している．また，RGB-Dカメラ
は以下の2つの誤差源が有る．それは固有のキャリブレーシ
ョンのエラーと空間的に変化する測定された深さに依存する
ことにより起こるエラーである．本論文では新規キャリブレ
ーションフレームワークを使用してRGB-Dカメラシステム
の両方の誤差を減らす取り組みを行う．そしてToF RGB-D
カメラの完全自動較正のための方法を提案する．
・私たちの手法では，深度カメラの強度画像を非線形レンズ
歪みの標準ピンホールモデルを用いて深度カメラをパラメー
タ化する通常のカメラの強度画像として扱う．機械学習を
用いて誤差分布をモデル化することにより，直接深バイアス
キャリブレーションの問題を解決する．また，私たちの手法
では，すべての誤差源を排除オフセット深さに深さと強度特
徴からマッピングを推測するためにRRFを使用する．
・提案手法は2つの部分に分かれている．1つの部分では幾何学的なRGB-
Dシステムの内部・外部パラメータを推定する．パラメータの特徴は自動
的に単一のカメラとステレオキャリブレーションの両方で使用されるサ
ブピクセル精度で較正ターゲット上で検出する．もう1つの部分では測
定された深さの誤差の補正を行う．誤差の補正は、幾何学的なカメラキ
ャリブレーション中に取得されたグラウンドトゥルース深度データから
学ぶ．
・RGB-D校正フレームワークの概要を図を下に示す．

結果
・学習データに存在するエラーの分布を評価結果を左下図に示す．また，RFにより選択された特徴を分析した結果を右下に
示す．
・深度較正実験の結果を以下に示す．表と図より提案手法が他の手法よりも高精度となっていることを示している．
Links
論文： http://www.bmva.org/bmvc/2015/papers/paper102/paper102.pdf
補足資料： http://www.bmva.org/bmvc/2015/papers/paper102/index.html
著者： https://rvlab.icg.tugraz.at/personal_page/personal_page_ferstl.html

Lingxi Xie, Liang Zheng, Jingdong Wang, Alan Yuille, Qi Tian, “InterActive: Inter-Layer Activeness
Propagation”, in CVPR, 2016.
【52】
Keywords: Activation Function of CNN, InterActive
新規性・差分
概要
CNNの上位層では空間的なコンテキストに着目した特徴が
抽出できないため，Low-levelな特徴量やHigh-levelな特徴
量を組み合わせることで特徴抽出の仕組みを強化．これを
バックプロパゲーションの仕組みでhigh-levelな活性化関
数の値をlow-levelな活性化関数により高い重みで学習させ
る．
・より上位の層から下位の層に情報を伝えて特徴量を学習
することで，活性化関数を用いた転移学習の精度を向上さ
せることに成功した．
・様々なチューニングの結果，提案手法が各データにて高
い精度を達成した(下表)．
Links
論文 http://research.microsoft.com/en-
us/um/people/jingdw/pubs%5CCVPR16-
ActivenessBackPropagation.pdf
プロジェクト

Chuang Gan, “You Lead, We Exceed: Labor-Free Video Concept Learning by Jointly Exploiting Web
Videos and Images”, in CVPR, 2016.
【53】
Keywords:
新規性・差分
概要
概念学習のためのウェブ動画を用いたデータセット構築方
法．[Lead Net]
インターネット上の動画には概念学習に用いれないノイズ
が存在し(図:右下)従来では人の手によってタグ付けされて
いた．本論文ではCNNアーキテクチャの自動学習と
RNN(LSTM)を用いて動画像からノイズとなるフレームを
除去し高品質な学習データを自動学習する仕組みを提案し
ている．基本概念は動画像を用いて学習しチューニングし
たアーキテクチャを用いてWeb画像を学習する．さらに
Web画像によってチューニングしなおされたアーキテクチ
ャで学習データのトリミング(ノイズ除去)を行う．その後
トリミングされた動作像からLSTMの学習を行う．
実験は学習方法を変更した手法で比較している(UCF101)．
本手法の自動学習が有用であることが示された．
またイベント認識でも有用な結果が得られた(MEDtest13).
Links 論文
http://research.microsoft.com/pubs/266581/CVPR16_webly_fin
al.pdf
プロジェクト

Xiao Chu, Wanli Ouyang, Hongsheng Li, Xiaogang Wang, “Structured Feature Learning for Pose
Estimation”, in CVPR, 2016.
【54】
Keywords: Pose Estimation
新規性・差分
概要
異なる関節をまたいで，また空間や特徴マップ間の共起的
な関係を同時に学習する．異なる画像であっても，特徴量
を学習することで効果的な姿勢推定を提案する．主に特徴
量とその相対的な関係がEnd-to-Endで学習され，双方向の
木構造モデルを提案とする．
・End-to-Endの学習フレームワークを提案し，特徴レベ
ルで関節間の構造を捉えることができる．
・特徴マップをまたいで関節位置を学習可能である．直
感的には異なる人であっても姿勢の特徴は似ている．
・双方向の木構造モデル(Bi-directional tree-structured
model)を提案する．
Links
プロジェクト
http://www.ee.cuhk.edu.hk/~xgwang/projectpage_structured_f
eature_pose.html

Robert T. Collins, Weina Ge, “CSDD Features: Center-Surround Distribution Distance for Feature
Extraction and Matching”, in ECCV, 2008.
【55】
Keywords: Keypoint, Feature Descriptor
新規性・差分
概要
SIFTのようなキーポイント記述や特徴記述子である
Center-Surround Distribution Distance (CSDD)を提案する．
CSDDではキーポイントを中心とした前景とその周辺の背
景となるピクセルの比較により記述が行われる．CSDDは
顕著な領域からキーポイント検出を行うものである．下の
図は直感的なCSDDの取得方法の説明であり，黄色領域と
青色領域の特徴分布の距離を比較することで顕著な領域を
抽出する．
・通常のキーポイント検出のようにコーナーから抽出する
のではなく，周りと比較して顕著なものを取り出すという
考え方のキーポイント検出器である．
・
Links
論文
http://www.cse.psu.edu/~rtc12/Papers/eccv08CollinsGe.pdf
ポスター
http://vision.cse.psu.edu/research/CSDD/csdd_poster.pdf
プロジェクト
http://vision.cse.psu.edu/research/CSDD/index.shtml
CSDDによるキーポイント検出．中央の画像はスコアの可視化，右の画像は上
位30の優位な特徴点を表示したものである．

Kota Yamaguchi, M. Hadi Kiapour, Luis E. Ortiz, Tamara L. Berg, “Parsing Clothing in Fashion
Photographs”, in CVPR, 2012.
【56】
Keywords: Cloth Parsing
新規性・差分
概要
ファッションスナップからの洋服の総合的な理解を行う論
文である．人物ベースのセグメンテーションや姿勢推定を
行い，各ファッションアイテムごとに分離するなど困難な
課題をいくつも含んでいる．53もの衣服のクラスに分類す
る問題を扱う．
・53の衣服タイプのクラス，158,235枚のファッションス
ナップを含むデータセットを公開した．
・SuperpixelによるセグメンテーションやHOGとMAP推定
による姿勢推定，CRFによるファッションラベルを付加し
た．．
・領域ベースのファッションクラスラベルについて，Pixel
Accuracyやmean Average Garment Recall (mAGR)を表に
示した．それぞれ89.0%, 69.8%と良好な性能を示した．そ
の他，姿勢推定の精度も評価を行った．
Links
論文 http://www.referitgame.com/home/publications/parsingclothing.pdf
プロジェクト
http://vision.is.tohoku.ac.jp/~kyamagu/ja/research/clothing_parsing/

Jose M. Saavedra and Juan Manuel Barrios, “Sketch based Image Retrieval using Learned KeyShapes
(LKS)”, in BMVC, 2015.
【57】
Keywords: image retrieval, Sketck Retrieval
新規性・差分
概要
スケッチベースの類似画像検索手法の提案．物体のスケッチでは，
物体ごとにキーとなるストローク(KeyShape)が組み合わさっている，
という前提のもとに，下図のような辞書をk-menasによるクラスタ
リングによって作成する(Learnd Key Shape: LKS)．
物体ごとの辞書内におけるKeyShapeの組み合わせと，入力画像
のKeyShapeの照合によって類似画像を検索する．
物体ごとのキーとなるエッジではなく，スケッチのキーとなる
ストロークを学習し(LKS)生成した辞書による類似画像検索手
法の提案．
LKSを用いることで，従来手法より精度が向上した，
Links
Paper :
http://www.bmva.org/bmvc/2015/papers/paper164/paper164.pdf
Author :
http://users.dcc.uchile.cl/~jsaavedr/publications.htm:
LKS descriptorの流れ．まずSketch datasetからkeyshapeの辞書
を生成する．つぎに辞書を用いて，検索画像から抽出した輪郭，
スケッチ画像からkeyshapeを検出する．最後に(1)投票(2)空間分
割(3)正規化によりLKS Histogramを生成し，LKS descriptorとす
る．
LSKによるスケッチ
ベースの類似画像検
索結果

Vivek Veeriah, Naifan Zhuang, Guo-Jun Qi, “Differential Recurrent Neural Networks for Action
Recognition”, in ICCV, 2015.
【58】
Keywords: Action Recognition, Differential Recurrent Neural Network,
新規性・差分
概要
・顕著な行動パターンに対応する時系列のダイナミクスの
影響を考慮した行動認識手法Differential Recurrent Neural
Networks(DRNN)の提案．
・複雑な時系列表現の学習の可能性を提示
・LSTMの特性は様々な行動のダイナミクスを学習するに
非常に有効的であるが，時系列の行動のダイナミクスを考
慮した研究はされていない．
・連続したフレーム間の顕著な動きによって発生する情報
のゲインの変化を強調する方式をLSTMに採用
Links
プロジェクト

Tanaya Guha, Rabab Kreidieh Ward, “Learning Sparse Representations for Human Action Recognition”,
in IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012.
【59】
Keywords: Action recognition, dictionary learning, expression recognition, overcomplete, orthogonal matching pursuit, sparse, representation,
spatio-temporal descriptors
新規性・差分
概要
・本稿では，オーバーコンプリートな辞書を学習するフレ
ームワークの提案と，そのフレームワークを用いることで
行動認識のコンテキストを学習し，得られた粗な表現の有
効性の検証を行う．
・提案したフレームワークへ向けた新規の分類アルゴリズ
ムの提案
・提案したフレームワークは，顔の表情や身体的動作を含
むデータセット上で，State-of-the-artな結果が得られた．
・オーバーコンプリートな辞書の各記述子は，spatio-
temporal descriptorsのセットを用いて構成される．これに
より，動画の表現がより豊か，かつコンパクト
Links
論文
http://home.iitk.ac.in/~tanaya/Project1_files/GuhaWardPAMI20
12.pdf
プロジェクト

Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, “Spatial Pyramid Pooling in Deep Convolutional
Networks for Visual Recognition”, in ECCV, 2014.
【60】
Keywords: Spatial Pyramid Pooling, deep convolutional neural network, visual recognition
新規性・差分
概要
・既存のDCNNは入力画像のサイズが固定されている．こ
の要求を排除するためのプーリング法「Spatial Pyramid
Pooling」を提案．
・ImageNet 2012における精度の向上，Pascal VOC 2007
と Caltech101データセットにおいてはファインチューニ
ングを行うことなくstate-of-the-art な分類結果を達成した．
・既存のCNNでは入力画像のサイズ/スケールが固定され
ており，認識精度を下げる恐れがあった．「Spatial
Pyramid Pooling」を使用することで，この固定サイズの
画像を入力する必要を排除
・一度全体画像を入力することで，特徴マップを生成し，
因子の領域の特徴プーリングを行うことで，繰り返し特徴
の畳み込み計算を行う必要を避ける．
Links
論文 https://arxiv.org/pdf/1406.4729v4
code https://github.com/ShaoqingRen/SPP_net
プロジェクト

Ming Yang, Kai Yu, “Real-Time Clothing Recognition in Surveillance Videos”, in ICIP, 2011.
【61】
Keywords: Clothing Recognition, Cloth Segmentation, SVM
新規性・差分
概要
監視カメラ中から人物の服装をリアルタイムに推定する研
究．服装認識のみならず，セグメンテーションについても
実行する．領域の抽出は背景差分など候補領域においてボ
ロノイ画像，RegionGrowにより人物位置の獲得，局所特
徴抽出ではHOGやDenseSIFT，2D DCTを用いる．抽出し
たベクトルはSVMにより識別される．
・新規に服装認識の問題を設定し，937人，25441の服装
インスタンスにおいて解析を行った．８種類のカテゴリに
ついてSVMにより分類を行った．
・識別の結果，平均Recall率が約80%になるなど良好な解
析である．
・監視カメラのように静的な環境であればこのような手法
で十分と感じる．
Links
論文
http://www.ece.northwestern.edu/~mya671/mypapers/ICIP11_
Yang_Yu.pdf
プロジェクト

Agnes Borras, Francesc Tous, Josep Llados, Maria Vanrell, “High-level Clothes Description Based on
Colour-Texture and Structural Features”, in Pattern Recognition and Image Analysis, 2003.
【62】
Keywords: Cloth Description
新規性・差分
概要
監視カメラにおける服装解析の先駆的研究であるが，上半
身のみの解析という非常に限られた問題設定を扱っている
と言える．色やテクスチャ，服装の構造に着目した特徴量
を用いた服装の解析．セグメンテーションはGraphCutを
用いている．
・色やテクスチャ，服装の構造に着目した特徴を新規に提
案した．色特徴は[1]に基づいているが，テクスチャは中央
図(5ステップにて異なるパーツを参照する)，服装の構造
(clothing component)は下図の通りである．
・限られた環境ではあるものの，64%の精度で服装の識別
ができるようになったと主張．
Links
論文
http://cat.uab.es/Public/Publications/2003/BTL2003/p114.pdf
プロジェクト
http://www.cat.uab.cat/Public/Publications/2003/BTL2003/

Alireza Fathi, Ali Farhadi, James M. Rehg, “Understanding Egocentric Activities”, in ICCV, 2011.
【63】
Keywords: Egocentric Vision, Activity Recognition
新規性・差分
概要
一人称ビジョンからの日常行動の認識．ここでは食事の準
備を題材としており，7種類の異なる行動(e.g. cheese
sandwich, coffee)やそのデータセットを提供した．一人称
ビジョンにおける行動認識の先駆的研究と言える．手領域
や物体領域のセグメンテーションを行い，意味づけやイン
タラクションを解析した上でActivity (上記の7種)やさらに
詳細に分割されたActionを認識する．
・一人称ビジョンにおいて行動認識するという問題設定を
提供した．さらに，セグメンテーションやインタラクショ
ン，行動とサブ行動分割といった問題を解決している．
・グラフィカルモデルはy=activity, a=action, h=object /
hand, x=observeを示し，それらは階層的に計算される．
・Actionをヒストグラムとして扱っていて，集合体が
Activityと判断される．識別にはCRFを用いた．
・Per-frameにおける行動認識がSTIP14.4%, SIFT + BoW
29.1%だったのに対してAdaBoostによる手法では45.0%．
・物体認識の正答率も右の棒グラフに示される．特に手領
域の推定は96%と高精度．物体や行動を合わせた詳細行動
においては64クラスで32.4%(提案手法)を達成．
Links
論文 http://ai.stanford.edu/~alireza/publication/ICCV11.pdf
プロジェクト http://ai.stanford.edu/~alireza/GTEA/

Alireza Fathi, Yin Li, James M. Rehg, “Learning to Recognize Daily Actions using Gaze”, in ECCV, 2012.
【64】
Keywords: Gaze, GTEA Gaze+ Dataset, Egocentric Vision
新規性・差分
概要
一人称ビジョンにおいて，日常行動や物体を操作する際の
視線情報を推定する研究である．GTEAにおいて視線情報
を追加したデータセットGTEA Gaze+ Datasetを提供する
ことで，行動認識だけでなく視線も同時推定する研究の問
題が提供された．まずは既存のシステムで視線を推定，そ
の後は行動と視線の同時推定を行った．
・一人称における行動認識において視線は有効であるかを
検証した．
・行動と視線を同時に推定することに成功した．さらには
視線が行動において重要であることを実証．
・従来手法[Fathi+, ICCV2011]が27%だったのに対して，
提案手法の視線を用いる方法では47%の行動認識を達成し
た．視線を用いる有効性が示せた．
・「視線が与えられた際の行動認識」「行動が与えられた
際の視線推定」ともに精度が向上することが判明した．こ
こから，同時推定と推定された情報からもう一方を推定す
る方が効率が良いことがわかった．
Links
論文 http://ai.stanford.edu/~alireza/publication/ECCV12.pdf
プロジェクト
http://ai.stanford.edu/~alireza/GTEA_Gaze_Website/

Kris M. Kitani, Takahiro Okabe, Yoichi Sato, Akihiro Sugimoto, “Fast Unsupervised Ego-Action Learning
for First-Person Sports Videos”, in CVPR, 2011.
【65】
Keywords: First Person View, GoPro, Unsupervised Learning
新規性・差分
概要
一人称ビジョンからのスポーツ映像解析を行う．頭部に装
着したGoProカメラから行動を教師なしで学習し，映像の
セグメント化を実行する．具体的にはスパースオプティカ
ルフローにより抽出したモーションヒストグラムを
Stacked Dirichlet Process Mixture Modelsにより解析する
ことで自動で類似行動がクラスタリングされる．
・教師なし学習により行動を分割して高精度にセグメント
化することに成功した．
・一人称ビジョンにおいて頻繁に用いられるデータセット
UEC Dataset (PARK, Quad sequenceなど)を提案した論文
としても知られる．
Links
論文 http://www.cs.cmu.edu/~kkitani/pdf/KOSS-CVPR11.pdf
データセット http://www.cs.cmu.edu/~kkitani/datasets/

Yin Li, Zhefan Ye, James M. Rehg, “Delving into Egocentric Actions”, in CVPR, 2015.
【66】
Keywords: First-Person Vision (FPV), Dense Trajectories,
新規性・差分
概要
一人称ビジョンからの行動認識の改良に関する論文．Low-
levelとしてはDense Trajectories (DT)によるモーション特
徴，DTにLABチャネルから取り出したLBPも統合した物体
特徴を適用．Middle-levelな情報では，手の姿勢や動作，
頭部の動作，視線方向も参照する．また，一人称ビジョン
いおけるそれらの組み合わせについても詳細に評価を行っ
た．
・一人称ビジョンにおいて高度な特徴量であるDTを用い
ただけでなく，LABの各チャネルにおいてLBPを抽出する
特徴をDTのフレームワーク内にて実装した．
・中央の表のFPV datasetまとめも便利．
・下表の評価において，O(Object) + M(Motion) + E
(Egocentric cues) + H(Hand)の組み合わせがもっとも効果
的であることが判明した．HがあればG(gaze)はさほど重
要ではない？
Links
foundation.org/openaccess/content_cvpr_2015/papers/Li_Delv
ing_Into_Egocentric_2015_CVPR_paper.pdf
著者ページ http://yinli.cvpr.net/

Hamed Pirsiavash, Deva Ramanan, “Detecting Activities of Daily Living in First-person Camera Views”,
in CVPR, 2012.
【67】
Keywords: Activities of Daily Living (ADL), First Person Vision, Actiivty Detection
新規性・差分
概要
介護などで特に重要であると思われるActivities of Daily
Living (ADL)の認識に取り組む．物体検出をVisual Phrases
[Farhadi+, CVPR11]により実行し，行動認識ではTemporal
Pyramidsを参照し，visual wordsを物体モデルから抽出，
長期の行動解析にも耐えうる手法とした．
・長時間に渡って解析を実行したADL dataasetを提案．
・ADL認識のための物体検出や行動認識手法が右の表や
Confusion Matrixに示す通りである．行動認識の平均精度
は40.6%であった．
Links
論文 http://people.csail.mit.edu/hpirsiav/papers/adl_cvpr12.pdf
プロジェクト
http://vision.ics.uci.edu/papers/PirsiavashR_CVPR_2012_1/
ビデオ https://www.youtube.com/watch?v=tybmC0bS928
スライド
http://www.csc.kth.se/cvap/cvg/rg/materials/hossein_004_slide
s.pdf

Junhua Mao, Jonathan Huang,Alexander Toshev, Oana Camburu, Alan Yuille, Kevin Murphy,
“Generation and Comprehension of Unambiguous Object Descriptions”, in CVPR, 2016.
【68】
Keywords: text descriptions of images,dataset
新規性・差分
概要
・画像生成分の根本的な問題として，画像の説明の仕方
はいくらでもあるため，手法の評価が難しいという点が
ある．そこで一度に説明するbounding_box内の物を１つ
に限定することで，より明確な評価をする．右図のよう
に，画像と領域が入力されたら説明文が出力され，文と
画像が入力されたらその文に合う領域が出力される．
・Google Refexp (G-Ref) datasetを提案．右上の画像
のように，リッチなアノテーションが物体ごと（緑
のマーク）に付与されている．MS COCOに基づいた
ものなので物体のmaskやカテゴリーの情報にもアク
セスできる．
． datasetとtoolboxが公開されている．
https://github.com/ mjhucla/Google_Refexp_toolbox
Links

Flora Ponjou Tasse, Jiri Kosinka, Neil Dodgson, “Cluster-based point set saliency ”, ICCV, 2015.
【69】
Keywords: cluster-based, saliency
新規性・差分
概要
・本論文では，位相情報が欠ける点に対してクラスターベ
ース手法の顕著点検出を提案する.手法の流れはfuzzy
clusteringを使用して小さなクラスタに分解する．クラス
タの一意性と各クラスタの空間分布を評価し，クラスタの
特性関数にこれらの値を組み合わせる．各点の顕著性を割
りはめるために各クラスタに属する点の確率を使用する．
・ポリゴンスープや範囲スキャンデータを含む3次元形状表
現の広い範囲に使用できる．また，本手法は一貫して低い
顕著性を割りはめるために各クラスタに属する点の確率を
使用する．
Links
論文 http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Tasse_Cluster-Based_Point_Set_ICCV_2015_paper.pdf
結果
任意の位相情報を使用せずに，false positive and false negativeのエラー率が上記のグラフのように合理的なバランスを達成している
ことが示されてた．

Nima Sedaghat, Thomas Brox, “Unsupervised Generation of a Viewpoint Annotated Car Dataset from
Videos”, ICCV, 2015.
【70】
Keywords: fully automated, viewpoint, bounding box, dataset
新規性・差分
概要
・物体認識手法は学習データやCADモデルにviewpointや
keypointを必要とする．そこで完全に自動で静的なシーン
の動画からviewpointやbounding boxのアノテーション画像
のデータセットを生成する手法を提案する．
・従来手法では手動ステップを含んでいるが提案手法はビ
デオからのviewpoint label付き学習データセットを生成す
るための完全自動化されている．また，パフォーマンスの
全体的な向上のために手動でラベルされたImageNet学習
データセットと提案手法のデータを結合することができる．
Links
論文 http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Sedaghat_Unsupervised_Generation_of_ICCV_2015_paper.pdf
プロジェクト http://lmb.informatik.uni-freiburg.de/Publications/2015/SB15/

Amir Ghodrati, Ali Diba, Marco Pedersoli, Tinne Tuytelaars, Luc Van Gool, “DeepProposal: Hunting
Objects by Cascading Deep Convolutional Layers”, in ICCV, 2015.
【71】
Keywords: DeepProposal, Deep Convolutional Layer
新規性・差分
概要
・CNN特徴に基づいた物体位置を提案する手法の提案
・本手法はCNN最終層から最初の畳み込みそうへ遡り，最
も有効な物体位置を選択し，ボックスを洗練する逆カスケ
ード法を提案する．
1)検出に向け抽出された特徴と同じ特徴を使用
2)積分画像を用いて特徴を集約
3)粗密カスケードによって位置提案の粗密な評価を回避
以上により，効率的に物体位置を提案することができる
Links
プロジェクト
DeepProposalの提案フレームワーク
画像中の有効な物体位置提案を得るために，粗密カスケードに畳み込み層
の機能を使用する．
最終畳み込み層(5層)から密な提案サンプリングを行ない，初期層(2層)まで
徐々にボックスをフィルタリングを行う．
最終段階では，提案手法の改良を行うために第2層から抽出した輪郭を使
用する．
生成したボックスは，物体検出パイプラインで使用する事ができる．

Mathieu Aubry, Bryan C. Russell, “Understanding deep features with computer-generated imagery”, in
ICCV, 2015.
【72】
Keywords: Understanding deep features, CNN,
新規性・差分
概要
・画像において発生する要因(物体形状や色，3D視点，照明)
に対して，CNNで生成された特徴の分析を行う．
・3次元のCADモデルの大規模データセットからレンダリン
グした画像を使用し，その画像内の要因を変化させることで，
様々なシーンに対応したCNN特徴の応答を解析する．
・分析し，得られた成分を定性的・定量的に解析，PCAを用
いて可視化を行う．
・CNNは，AlexNet, Places, Oxford VGGの3つを使用する．
・大規模なデータセットを学習した3つのCNNの定性的・
定量的な結果を提示
・様々なシーンの要因や物体のカテゴリに向けたネットワ
ークおよびCNNの層全体の違いを観測
Links
論文 https://arxiv.org/pdf/1506.01151v1
動画 https://www.youtube.com/watch?v=aDq5IGw--lc
プロジェクト

Dong Zhang, Mubarak Shah, “Human Pose Estimation in Videos”, in ICCV, 2015.
【73】
Keywords: Human Pose Estimation,
新規性・差分
概要
・制約のない動画中の人間の姿勢を推定する手法を提案す
る
・本提案手法の核となるアイデアは「抽象化」と「結合」
である．これにより，動画のフレーム内およびフレーム間
の身体のパーツの動きを制約し，強制する．
・提案手法は効率的にツリーベースの姿勢を生成しながら
も，既存の手法に比べ，動画中の時間的・空間的な身体の
パーツの制約を複雑な計算処理を行わずにモデル化できる
・「抽象化」ではツリーベースの身体のパーツの構成と空
間的制約を付与
・「結合」では，身体のパーツに時間的制約を付与し，最
適な追跡を実現する．
Links
論文
http://www.dromston.com/download.php?Down=HumanPoseE
stimationInVideos.pdf
著者 http://www.dromston.com/
dataset
http://www.dromston.com/download.php?Down=HPEV_Datas
ets.zip

Yair Poleg, Chetan Arora, Shmuel Peleg, “Temporal Segmentation of Egocentric Videos”, in CVPR, 2014.
【74】
Keywords: Video Segmentation, Egocentric Vision
新規性・差分
概要
一人称ビジョンからビデオのセグメント化を実行するた
めの手法を提案する．本論文ではモーションベースの手
法に着目し，一人称ビジョンのような動的な環境でも適
切に動作特徴を捉えるCumulative Displacement Curves
(CDC)を提案する．
・一人称ビジョンにおけるモーションベースの特徴量
Cumulative Displacement Curves (CDC)を提案した．フロ
ーの蓄積とbinary classificationによる新しい識別の戦略も
示した．
・CDC+SVMを用いて，7つのクラス分類やGaze Fixation
を高精度に行った．
Links
論文 http://www.cs.huji.ac.il/~peleg/papers/cvpr14-egoseg.pdf
プロジェクト
CDCの記述方法．10x5ブロックに分割された領域から特徴点の移動
(Displacement)を蓄積する．右が実際のカーブの様子である．頭部の(意図しな
い)回転は統計的に除去される傾向にあるという．識別は上図のようなbinary
classificationにより木構造で判別する．

Alireza Fathi, Xiaofeng Ren, James M. Rehg, “Learning to Recognize Objects in Egocentric Activities”, in
CVPR, 2011.
【75】
Keywords: Egocentric Vision, Object Recognition, Segmentation
新規性・差分
概要
一人称ビジョンから弱教師あり学習により物体や手領域の
セグメンテーションを行う．各行動(に紐付いた物体名)が
わかっている状態で，いかに物体セグメンテーションを行
うかを問う問題．Multiple Instance Learning (MIL)を用い
て物体セグメンテーションを行う．
・ジョージア工科大学のデータセットであるGTEA
datasetを提案．その後，一人称ビジョンにおいて行動認
識や物体セグメンテーションのタスクとして用いられるよ
うになる．
・弱教師あり学習にて物体や手領域のセグメンテーション
ができるようになる．
Links
論文 http://ai.stanford.edu/~alireza/publication/CVPR11.pdf
プロジェクト http://ai.stanford.edu/~alireza/GTEA/]
ビデオ https://vimeo.com/21723853

Jean-Baptiste Alayrac+, “Unsupervised Learning from Narrated Instruction Videos”, in CVPR, 2016.
【76】
Keywords:
新規性・差分
概要
・教師なし学習でナレーションに含まれる行動タスクと動
画像を対応づける手法の提案．特定のタスクを完了するた
めに必要な共通の行動を自動で学習する．
・入力された映像とナレーションの相補的性質を活用し教
師なし学習する手法の提案．新規データセットの提案．実
験的検証．各ナレーションはオブジェクトの関係性の行動
列に変換され，意味的な統合を行い，K個のタスクに分離
される
Links
論文 http://www.di.ens.fr/~alayrac/papers/alayrac16unsupervised.pdf

Alexandre Alahi, “Social LSTM: Human Trajectory Prediction in Crowded Spaces”, in CVPR, 2016.
【77】
Keywords:
新規性・差分
概要
・群衆の経路予測のためのRNNモデルの提案．(social
LSTM)
・従来の群衆解析は人同士はぶつからないことや同じような動きをすると
いった仮説の基に解かれてきた．しかし本手法では群衆予測に特化した
RNNアーキテクチャを構築することでデータ特化の群衆予測を可能にした．
Social LSTMを構築する上でSocial Poolingを提案した．Social Poolingとは
それぞれに近い存在の重みも考慮するpooling方法である．近い人間が複数
存在する場合はセルごとに重みを統合する
Links
論文
http://web.stanford.edu/~alahi/downloads/CVPR16_
N_LSTM.pdf

Zuxuan Wu, “Harnessing Object and Scene Semantics for Large-Scale Video Understanding”, in CVPR,
2016.
【78】
Keywords:
新規性・差分
概要
オブジェクトとシーンを意味的に融合させたネットワーク
の構築(Object-Scene semantic Fusion:OSF). 物体認識，シ
ーン認識，フレームベースの低レベルCNNの3層のCNN特
徴を意味的に融合する．ActivityNetとFCVIDで学習された
m出るを用いている．Fusion Netに誤差逆伝搬情報を入力
することでビデオと物体・シーンの意味的関係性を観測す
ることが可能
オブジェクト特化のCNN特徴ととシーン特化のCNN特徴
を意味的に融合した特徴抽出が可能．
Links
foundation.org/openaccess/content_cvpr_2016/papers/Wu_
Harnessing_Object_and_CVPR_2016_paper.pdf

Yin Li, Alireza Fathi, James M. Rehg, “Learning to Predict Gaze in Egocentric Video”, in ICCV, 2013.
【79】
Keywords: Gaze Estimation, Egocentric Vision
新規性・差分
概要
一人称カメラの装着者の潜在的な手がかりを学習すること
で，視線推定を自動で行うことができるという研究．特に，
ユーザの頭部動作や手領域の位置に着目し，それらを総合
的に判断することで視線を高度に推定する．右図のグラフ
ィカルモデルにより視線を推定する．入力は操作位置・グ
ローバルモーション・手のモーション・手の位置．
・頭部動作や手領域といった潜在的な動作から視線を推定
することに成功した．
・従来のsaliencyはIttiらのボトムアップモデルや対象物あ
りきのトップダウンモデルであったが，一人称ビジョンな
らではの視線推定方法を提案した．
・AUC scoreで87.8%，AAEで8.35 degreeと比較手法と比
べても最も良好な性能を示した．
Links
論文 http://ai.stanford.edu/~alireza/publication/Li-Fathi-Rehg-
ICCV13.pdf

Stefano Alletto, Giuseppe Serra, Simone Calderara, Rita Cucchiara, “Understanding social relationships
in egocentric vision”, in Pattern Recognition, 2015.
【80】
Keywords: Social Relationship, Egocentric Vision
新規性・差分
概要
一人称ビジョンにおけるインタラクション認識．時系列モ
デルであるHMMを用いて顔ランドマークや形状を記述．
さらには複数人物の頭部向き(head orientation)や人物間の
距離から教師ありクラスタリングによりインタラクション
を検出する．
一人称ビジョンにおいて，
・低解像かつ煩雑な環境においてもロバストな頭部姿勢推
定技術を提案
・キャリブレーションによらない3次元の位置推定技術
・Supervised Correlation ClusteringやStructural SVMによ
りインタラクション認識を行う
・提案手法については右のフローチャートがわかりやすい
・Landmark+HOG+HMMを組み合わせる手法が最適な方
法であると判断した
Links
論文
https://www.researchgate.net/publication/28
0528864_Understanding_social_relationshi
ps_in_egocentric_vision

Jun Yuan+, “Temporal Action Localization with Pyramid of Score Distribution Features”, in CVPR, 2016.
【81】
Keywords:
新規性・差分
概要
・時系列方向のアクションローカライゼーションのための
アーキテクチャ構築.
Pyramid of Score Distribution Features (PSDF) の提案．
・従来の行動認識は行動ごとにトリムされた動画像を対象
としていた．本論文では行動の始まりから終わりまでをピ
ラミッド状にスコアとして評価しトリムされていない動画
像から行動を検出する手法の提案を行っている．
PSDFは各検出領域を中心とする複数の分解能を持つ動き
情報を抽出するために提案されている．
Links
foundation.org/openacc
ess/content_cvpr_2016/
papers/Yuan_Temporal
_Action_Localization_C
VPR_2016_paper.pdf

Jagannadan Varadarajan, “A Topic Model Approach to Represent and Classify American Football Plays”,
in BMVC, 2013.
【82】
Keywords:
新規性・差分
概要
・アメリカンフットボールの映像解析にトピックモデルを
応用した例．選手の動きを入力とし選手の動作方向、時間、
配置を文章として記述．その後教師ありトピックモデルの
一種であるMedLDAを用いてプレイのタイプを出力する．
・アメリカンフットボールの映像解析(選手の軌跡を用い
た)でのトピックモデルを用いたフレームワークを提案し
高い精度で分類が行えている．
選手の軌跡を文章と捉え統計的に解析する手法の検証を行
っている．またデータセットの提案も行なっている．
Links
論文
https://www.researchgate.net/profile/Bernard_Ghanem/publicat
ion/262009746_A_Topic_Model_Approach_to_Represent_and
_Classify_American_Football_Plays/links/55808f4608ae47061
e5f3322.pdf

【2016.06】cvpaper.challenge2016

【2016.06】cvpaper.challenge2016

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (17)

Similar to 【2016.06】cvpaper.challenge2016

Similar to 【2016.06】cvpaper.challenge2016 (20)

【2016.06】cvpaper.challenge2016