ECCV 2016 まとめ

cvpaper.challenge
Twitter@CVPaperChalleng
http://www.slideshare.net/cvpaperchallenge
MAILTO: cvpaper.challenge[at]gmail[dot]com

Jason J. Yu, Adam W. Harley, Konstantinos G. Derpanis, “Back to Basics: Unsupervised Learning of Optical
Flow via Brightness Constancy and Motion Smoothness”, in ECCV Workshop on BNMW, 2016.
【1】
Keywords: Optical Flow, Unsupervised Learning
新規性・差分
概要
CNNをベースとして，Unsupervisedにオプティカルフローを学習する
FlowNetを提案．データセットに依存して学習するオプティカルフローではな
く，環境に合わせて学習できるように教師なし学習のオプティカルフローに
チャレンジした．損失関数をフォトメトリック項や平滑化項により定義して，
完全教師なし学習でオプティカルフローを推定．フォトメトリック項では順フ
ローと逆フローが一致すれば損失ゼロ．CNNに適用すると右図のようにな
る．畳み込み層と対応づけるUnconv層によりフローの再現性を向上させ
る．
・完全教師なし学習によるCNNベースのオプティカルフロー推
定を提案した
・損失関数を定義して，CNNに挿入した．
Links
論文 https://arxiv.org/pdf/1608.05842v1.pdf
プロジェクト

S. L. Pintea, J. C. van Gemert, “Making a Case for Learning Motion Representations with Phase”, in ECCV
Workshop on BNMW, 2016.
【2】
Keywords: Optical Flow, Eulerian Motion Representation
新規性・差分
概要
オプティカルフローから動作のフェーズを表現するEulerian
Motion Representationを導くことで，行動認識や行動予測，
モーション転移などに有効と主張した．フェーズごとにCNNの学
習を行うことで，フェーズにおけるモーションや変位の関係性を
記述できる．
・感覚的に，数フレーム単位のモーションの塊(フェーズ)を自動
で捉えることに成功した．フレーム数の変動に対応可能か？
・フェーズ学習というものを行動認識，モーション予測，，モー
ション転移に適用し，各CNNアーキテクチャを提案．
Links
論文 http://openreview.net/pdf/H1Hp-q2s.pdf
プロジェクト
http://silvialaurapintea.github.io/motion_transfer/index.html

Yu-Hui Huang, Jose Oramas M., Tinne Tuytelaars, Luc Van Gool, “Do Motion Boundaries Improve Semantic
Segmentation?”, in ECCV Workshop on BNMW, 2016.
【3】
Keywords: Semantic Segmentation
新規性・差分
概要
Semantic Segmentationに対して，オプティカルフローやモー
ションの境界は必要であるかを検証した．実験ではSegNetやオ
プティカルフロー，モーション境界を用いることでSegNetの精度
からセマンティックセグメンテーションの精度を向上させることに
成功した．シンプルであるが，効果的なアイディアである．
・オプティカルフローやモーション境界を用いることでSemantic
Segmentationの結果を向上させることに成功した．
Links
論文 http://openreview.net/pdf/H1q36jBj.pdf
プロジェクト

Joon Son Chung, Andrew Zisserman, “Signs in time: Encoding human motion as a temporal image”, in ECCV
Workshop on BNMW, 2016.
【4】
Keywords: Sign Language, Posture Estimation
新規性・差分
概要
手話認識のための新しいモーション表現方法を提案する．手法
としては，CNNを二段階に用いる．最初のステップではまず姿
勢推定のためのCNNを用いる．次のステップでは推定した姿勢
から関節位置の時系列軌跡を記録して新たにCNNに入力す
る．Back propagationにより，手話のローカライズも同時に行っ
た．
・手話認識の新しい表現方法を提案した．２段階に
CNNを用いることで性能が向上する．
Links
プロジェクト

Hao Zhou, Jose M. Alvarez, Fatih Porikli, “Less is More: Towards Compact CNNs”, in ECCV, 2016.
【5】
Keywords: Model Compression, Pruning, Neuron Reduction
概要
・目的関数にスパース化の制約を加えることで，CNNのニュー
ロン数を学習時に削減．
・AlexNetやVGG-13の最初のFC層の場合，top-1 accuracyを
下げることなく，ニューロン数を30%に削減可能．
Links
論文 https://www.nicta.com.au/pub-download/full/9476
ポスター http://www.eccv2016.org/files/posters/S-3A-09.pdf

新規性・差分
・学習時にニューロンを削減するため，削減前に予めネットワーク
を学習する必要が無い．
・ReLUがニューロン数削減に寄与することを示した．（ある特定の
ニューロン ŵlj を考え，他のニューロンを固定すると，式(1)は ŵlj=0
で極小値を持つ．）
・forward-backward splittingにより，スパース化制約の評価を誤差
逆伝搬時に省略する．

Xiaoyong Shen, Xin Tao, Hongyun Gao, Chao Zhou, Jiaya Jia, “Deep Automatic Portrait Matting”, in ECCV,
2016.
【6】
Keywords: Portrait Matting, Deep CNN
新規性・差分
概要
髪型など質感を表現するようなセグメンテーションを表現する。
ネットワーク構成は二段階になっており、最初にアバウトに領
域を求め、次に細部に渡りMattingを実行する。さらに、これら
の流れをEnd-to-Endにて学習を行うことができる。
・従来では難しかった髪の質感まで表現するセグメンテーション
を実現した。
・2段階のアルゴリズムを用いて、End-to-Endで学習できるモデ
ルを提案。
Links
論文 http://xiaoyongshen.me/papers/deepmatting.pdf
プロジェクト
http://xiaoyongshen.me/webpages/webpage_automatting/

Ronghang Hu, Marcus Rohrbach, Trevor Darrell, “Segmentation from Natural Language Expressions”, in ECCV,
2016.
【7】
Keywords: NLP, Instance Segmentation
新規性・差分
概要
インスタンスレベルのセマンティックセグメンテーションにおいて
は困難な課題であるが，これを自然言語を用いてセンテンスを
解析することで精度を向上させるというアイディア．上図は本論
文の概要，下図ではフローを示し，画像や文章の入力からそれ
ぞれCNNによる特徴抽出，LSTMによる文章解析を行い，全結
合層にて統合を行い，セグメンテーションに復元する．
・画像側のみでなく，自然言語側の入力も用いてインスタンスレ
ベルでのセグメンテーションを実行する．
Links
プロジェクト http://ronghanghu.com/text_objseg/
コード https://github.com/ronghanghu/text_objseg

Xiaodan Liang, Xiaohui Shen, Jiashi Feng, Liang Lin, Shuicheng Yan, “Semantic Object Parsing with Graph
LSTM”, in ECCV, 2016.
【8】
Keywords: Graph LSTM, Image Parsing
新規性・差分
概要
RNNの種類のひとつに短期・長期の特徴を扱えるLSTMがあ
る．本論文ではLSTMについてグラフ構造を取り入れるkとでフ
レキシビリティを向上させる．具体的には左図に示すようにグラ
フのトポロジーを取り入れ，固定幅でなく信頼度の高い位置に
応じて柔軟に保持する情報を変更させ，潜在変数を取り入れた
ノード表現，Adaptive Forget Gatesにより情報の取捨選択を行
う．
・LSTMにグラフ構造を取り入れ，モデルの柔軟性を向上させた
・構造は下図のようになり，CNN+Graph LSTMとなり，画像の
Parsing (ここでは人物の姿勢ごとのセマンティックセグメンテー
ション)を実行した．
Links
プロジェクト

Jian-Fang Hu, Wei-Shi Zheng, Lianyang Ma, Gang Wang, Jianghuang Lai, “Real-time RGB-D Activity Prediction
by Soft Regression”, in ECCV, 2016.
【9】
Keywords: RGBD, Action Prediction
新規性・差分
概要
RGBDセンサを用いた姿勢による入力から人物行動予測を実
行する．姿勢特徴から空間的な勾配や時系列構造を考慮した
Local Accumulative Frame Feature (LAFF)を構成し，右図のよ
うなSoft Regression Modelにより予測モデルを生成する．特徴
と時間的に先の行動を対応づけるPrediction Lossの他に正規
化や整合性を保つ項を追加．行動認識や行動予測の精度とも
に安定した結果を見せた．
・RGBDからの行動予測について，Soft Regression Modelを提
案した．
・LAFFによる表現と最適化モデルにより，安定した行動予測を
実現した．RGBよりもデプスを使った方が良いことも実証した．
Links
論文 http://www3.ntu.edu.sg/home/wanggang/Publications.html
ポスター http://www.eccv2016.org/files/posters/P-1A-17.pdf
プロジェクト

Abhinav Shrivastava, Abhinav Gupta, “Contextual Priming and Feedback for Faster R-CNN”, in ECCV, 2016.
【10】
Keywords: Faster R-CNN, Feedback
新規性・差分
概要
Faster RCNNにセマンティックセグメンテーションの結果を反映
させ，検出精度を向上させる．人間の認識の構造からも形状や
領域を総合的に判断するところからヒントを得ている．右図は
繰り返しによるパラメータの更新のモデルである．
・セマンティックセグメンテーションの結果をFaster R-CNNに反
映させ，結果的には物体検出やセマンティックセグメンテーショ
ン，物体候補領域の抽出と３者において向上させる

Links
論文 http://abhinav-shrivastava.info/context_priming_feedback.pdf
プロジェクト

Nam N. Vo, James Hays, “Localizing and Orienting Street Views Using Overhead Imagery”, in ECCV, 2016.
【11】
Keywords: Ground Image
新規性・差分
概要
地上の画像から地図上の位置を当k呈する問題．回転不変な
マッチング方法を考案した．ネットワークアーキテクチャには
AlexNet + SiameseNetを採用し，ユークリッドによる距離計算や
Tripletによる学習も取り入れた．回転不変にはランダムな回転
を入れたデータ拡張や複数の回転によるテスト，回転ラベルの
導入により精度を向上させた．
・新しい地上-地図の位置対応をとったデータセットを提案す
る．同データには11都市が含まれている．
・回転不変なマッチング方法を考案した．
Links
論文
http://www.cc.gatech.edu/~nvo9/crossview_eccv2016/
nam_eccv2016.pdf
プロジェクト

Andwer Owens, Jiajun Wu, Josh McDermott, William Freeman, Antonio Torralba, “Ambient Sound Provides
Supervision for Visual Learning”, in ECCV, 2016.
【12】
Keywords: Sounds, Object Recognition
新規性・差分
概要
音から連想される物体により，物体識別や物体検出のための
学習を強化する．映像の音を判断することにより，Self-
supervisionを行うという概念である．音の表現方法は
CochleagramからMoments, Filter responses, Correlationsと
いった統計値へと変換し，物体から連想される音を認識する．
・音による入力で物体の学習を強化する「self-supervision」の
概念を提唱した
・実際に可視化したところ，右下図のような結果が得られ，統計
的に音から物体を表現できている．
Links
論文 https://arxiv.org/pdf/1608.07017.pdf
著者 http://andrewowens.com/
ポスター http://www.eccv2016.org/files/posters/O-1B-01.pdf

Cewu Lu, Ranjay Krishna, Michael Bernstein, Li Fei-Fei, “Visual Relationship Detection with Language Priors”,
in ECCV, 2016.
【13】
Keywords: Visual Relation
新規性・差分
概要
人物や動物などと，対象となる物体や動詞の関係性を学習す
る手法を考案．共起性による損失関数を定義した．Visual
Genomeからのラベルに対して，共通する人物/物体/動詞の損
失を捉えて，ビジュアル特徴を学習することで，多タスク学習の
要領で少ない学習データでも共通の特徴を学習可能とした．
Long-tailやZero-shot learningも取り入れ，より少ない画像でも
概念を獲得できるようにした．
・共起性の学習を実現した
・少ないデータでも，多タスク学習やZero-shot Learningにより
効果的に学習ができている．
Links
論文 http://cs.stanford.edu/people/ranjaykrishna/vrd/vrd.pdf
プロジェクト http://cs.stanford.edu/people/ranjaykrishna/vrd/
ポスター http://www.eccv2016.org/files/posters/O-1B-04.pdf
コード
https://github.com/Prof-Lu-Cewu/Visual-Relationship-Detection

Lerrel Pinto, Dhiraj Gandhi, Yuanfeng Han, Yong-Lee Park, Abhinav Gupta, “The Curious Robot: Learning
Visual Representations via Physical Interactions”, in ECCV, 2016.
【14】
Keywords: Robot, Grasp, Push, Poke
新規性・差分
概要
ロボットの各タスク (Grasping, Pushing, Poke, Inariance)から操
作に必要な表現方法を学習する．共通の重みや分岐して各タ
スクに特化した学習を行うネットワークを構成する．
・ロボットに学習機構を取り入れた例である．
・複数のタスクから共通の特徴を学習し，識別や画像検索の
ネットワークの性能を向上させた．
Links
論文 https://arxiv.org/abs/1604.01360
ポスター http://www.eccv2016.org/files/posters/S-1B-05.pdf
著者 http://www.cs.cmu.edu/~lerrelp/

Amy Bearman, Olga Russakovsky, Vittorio Ferrari, Li Fei-Fei, “What’s the Point: Semantic Segmentation with
Point Supervision”, in ECCV, 2016.
【15】
Keywords: Weak supervision semantic segmentation
新規性・差分
概要
画像レベルでなく，物体カテゴリのポイントレベル (物体領域の
一点をアノテーターが示す)で正解を与える程度でセマンティッ
クセグメンテーションの学習を実行するという枠組み．学習とし
てはWeakly Supervised Learningである．Point-level
supervisionの損失関数も与えた．Fully Convolutional Network
(FCN)をベースとして，性能向上が見られた．
・FCNと比較して，性能が12.9% (mIOU) 向上した．
・画像レベルよりもポイントレベルの教師の方が断然性能がよく
なることを実証した．損失関数も定義して，ベースラインから性
能が向上することを確認した．
Links
論文 https://arxiv.org/abs/1506.02106
ポスター http://www.eccv2016.org/files/posters/P-1B-18.pdf
プロジェクト http://vision.stanford.edu/whats_the_point/

Chi Su, Shiliang Zhang, Junliang Xing, Wen Gao, Qi Tian, “Deep Attributes Driven Person Re-identification”, in
ECCV, 2016.
【16】
Keywords: Person Re-identification, Triplet Loss
新規性・差分
概要
画像によるCNNの学習を実行してPerson Re-IDを実行するの
ではなく，属性 (Attribute)により探索を実行する．ネットワーク
の学習は (1) 画像の入力による，識別ベースのCross-Entropy
Loss, (2) 最初の学習済みパラメータを用い，人物画像の
Triplet (3枚のペア，対象画像1枚と同じ属性の画像，異なる属
性の画像)によるAttributes Triplet Loss，(3) データセットを統
合した上でCross-Entropy Lossを計算してFine-tuning．
・画像の識別ベースによりネットワークを学習するのみでなく，
間に属性学習を取り入れ，最後にFine-tuningを行うことでRe-
IDの性能を向上させた．1500人のオリジナル人物が含まれた
Marketデータに対しても良好な性能を達成．
Links
プロジェクト

Ting-Chun Wang, Jun-Yan Zhu, Ebi Hiroaki, Manmohan Chandraker, Alexei A. Efros, Ravi Ramamoorthi, “A 4D
Light-Field Dataset and CNN Architectures for Material Recognition”, in ECCV, 2016.
【17】
Keywords: Light Field Camera, 4D Light Field
新規性・差分
概要
ライトフィールドカメラによる材質認識 (Material Recognition)の
研究であり，CNNアーキテクチャやデータセットを提供する．4D
ライトフィールドはLytroにより撮影され，12の材質に対して各
100枚，30,000パッチが記録されている．提案法はベースライン
と比較して7%の向上を示した．(70%=>77%)
・知りうる限り初めてのMid-sizeのライトフィールド
データセットである
・空間的な畳み込みやAngular Imageに対して畳み込
みを行うことにより，Interleaved Filterを定義した．材
質認識にはこれが有効であることが判明した．
Links
論文
https://people.eecs.berkeley.edu/
~tcwang0509/papers/ECCV16/LFMR.pdf
データセット
https://people.eecs.berkeley.edu/
~tcwang0509/publications.html
ポスター
http://www.eccv2016.org/files/posters/

Pavel Tokmakov, Karteek Alahari, Cordelia Schmid, “Weakly-Supervised Semantic Segmentation using Motion
Cues”, in ECCV, 2016.
【18】
Keywords: Weakly Supervised Semantic Segmentation
新規性・差分
概要
モーションや物体カテゴリの尤度マップを手掛かりとして，前景
領域のセマンティックセグメンテーションを弱教師付き学習の要
領で行う．右図が本論文の手法におけるオーバービューであ
り，FCNN [Chen+, ICLR15]をベースとして，直感的にはEM-
algorithm的に解決する (E-stepはピクセルラベルの推定，M-
stepはbackpropによる最適化)．学習ははYouTube Objects,
ImageNet Videos, Pascal VOC 2012より行った．
・画像に対する物体ラベルを入力として，弱教師付き学習によ
りセマンティックセグメンテーションを実施した．
・弱教師付き学習により，今後は膨大なデータによる学習が可
能である．

Links

Zhizhong Li, Derek Hoiem, “Learning without Forgetting”, in ECCV, 2016.
【19】
Keywords: Fine-tuning, CNN
新規性・差分
概要
学習済みのラベルを忘れずに(識別パラメータをできる限り変
更しないで)新しいタスクを学習させる方法を提案する．前提と
して，従来のタスクの学習データが手に入らないこととする．マ
ルチタスク学習の要領で従来のパラメータを忘れず，新しいタ
スクのパラメータを学習する．実際にはAlexNetをベースとし
て，マルチタスクロスを最小化することで従来タスクの性能を損
なわずに，パラメータを共有して新しいタスクを学習する．
・従来のタスクを忘れずに，新しいタスクを学習する「Learning
without Forgetting」の概念を提案した．
・Fine-tuningやJoint Trainingと異なるのは，従来の学習サンプ
ルを用いず，新規のデータを用いるのみで新しいタスクを学習
することができることである．
Links

Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, “Identity Mappings in Deep Residual Networks”, in ECCV,
2016.
【20】
Keywords: Deep Residual Networks, Identity Mapping
新規性・差分
概要
Deep Residual Networks (ResNets)はResidual Unitsにより構成
されている．Residual Unitsは(1)(2)に示すようなfunction h(x_l)と
入力と重みによる出力の残差 F(x_l, W_l)の和をReLU関数に通
したものである．本論文ではBatch Normalization (BN)やReLU
などの順番を変えたユニットや，スキップコネクションの詳細解
析を行い，スタックする層の和を増やした．
・新規にResidual Unitsを定義した．
・スキップコネクションの解析により，ImageNetで152層から200
層に，CIFARでは110層から1001層と深くしても勾配を損なわず
に学習し，精度が向上することが判明した．学習済みモデルを
公開している．
Links
コード https://github.com/KaimingHe/resnet-1k-layers
参考
http://qiita.com/supersaiakujin/items/eaa0fe0460c470c28bd8

Arun Mallya, Svetlana Lazebnik, “Learning Models for Actions and Person-Object Interactions with Transfer to
Question Answering”, in ECCV, 2016.
【21】
Keywords: Action Prediction, DNN, Visual Question Answering
新規性・差分
概要
人物行動や人物間インタラクションのための質問回答 (Visual
Question Answering)の研究である．本研究ではDeep Neural Netowkrs
を用いて，局所的かつ大域的に画像領域を評価し数百ラベルに対す
る回答を準備する．訓練データのラベルの貧弱さはMultiple Instance
Learning (MIL)による弱教師付き学習のフレームワークによりカバーす
る．右図は本研究のフレームワークであり，行動ラベルやbboxから
DNNを学習してVQAを実現する．この際に，弱教師付き学習を適用し
て学習ラベルの不足を補う．
・MILを採用して，弱教師付き学習によりインスタンスラベルの不足
や損失関数の重みを調整する．この枠組みにより学習されたモデ
ルはHICOやMPIIデータにてstate-of-the-artを達成した．
・学習ラベルの不足を，弱教師付き学習で学習し最先端の教師あ
り学習の手法と比較しても高い性能を叩き出した．ROIプーリング
により領域評価をする提案手法について，1回畳み込みののちに
Fusionする手法が高精度であることが判明した．Weighted Lossも
採用．(右下表はHICOによる検証) VQAについても良好な精度を出
した．
Links
プロジェクト http://arunmallya.com/

Colin Lea, Austin Reiter, Rene Vidal, Gregory D. Hager, “Segmental Spatiotemporal CNNs for Fine-grained
Action Segmentation”, in ECCV, 2016.
【22】
Keywords: Action Recognition, Action Segmentation, Spatiotemporal CNN
新規性・差分
概要
時系列CNNを用いたフレームベースの行動セグメンテーションに関する研究．
対象は料理や手術の行動セグメンテーションである．本研究のモデルは物体
やいかにその状態が変化するか，さらにはインタラクションを捉えて行動のセ
グメント化を図る研究である(右上図)．図の例では行動が階層化されている．
CRFやRNNの側面を持つSemi-Markov CRFをモデルとして仮定するが，計算
の複雑性を考慮するため1~3次のマルコフ性に制約を設けることで高速化を
図った。空間的なCNNはVGGを参考とし，時系列CNNは複数フレームの畳み
込みマップをReLUにより統合．
・物体の関係性や変化について記述する時系列CNNを提案した．
・行動のセグメント化について従来モデルよりも高速な手法を提案
・ふたつのデータ (Univ. of Dundee 50 Salads, JIGSAWS)における詳細行動
認識について良好な精度を出した．
・提案のST-CNN+Segは50 Saladsにて72.00%, JIGSAWSにて74.22%を達成し
た．
Links
論文 http://arxiv.org/pdf/1602.02995v3.pdf
プロジェクト
https://cirl.lcsr.jhu.edu/research/video-based-action-recognition/

Filip Radenovic, Giorgos Tolias, Ondrej Chum, “CNN Image Retrieval Learns from BoW: Unsupervised Fine-
Tuning with Hard Examples”, in ECCV, 2016.
【23】
Keywords: CNN, Fine-tuning, Bag-of-Words (BoW)
新規性・差分
概要
CNN Fine-tuningのためにBoWの認識をヒントにする．さらに，
Structure-from-Motion (SfM)を採用して3Dモデルを設定する
ことでトレーニング画像の質を高め，画像検索の精度を向上さ
せた．Hard Positive/Negativeも学習の際には有効であることを
検証した．右図は検索の結果を示しており，同色は同じベクト
ルの性質を持っている．BoWやSfMを設定したFine-tuningの方
が検索性能が向上した．
・CNNの発展は完全に人工のアノテーションに頼っているが，
旧来の認識手法やカメラ幾何手法をモデルとして採用すること
でアノテーションを自動化することができる．
・右の表はstate-of-the-artと比較した結果．提案法のMACや
R-MACは大体においてStatte-of-the-artを更新した．評価は
Oxford, Paris, Holidays datasetにて行った．
Links
著者 http://cmp.felk.cvut.cz/~radenfil/

Xiaojiang Peng, Cordelia Schmid, “Multi-region two-stream R-CNN for action detection”, in ECCV, 2016.
【24】
Keywords: Action Detection, Faster R-CNN, Multi-region CNN, Two-Stream R-CNN
新規性・差分
概要
Faster R-CNNやTwo-Stream CNNの統合により，時系列の候
補領域抽出やフレームレベルの行動検出を実現した．ここでい
う行動検出とはフレーム内の行動位置やラベルを推定する問
題である．右図がTwo-Stream R-CNNの構造であり，RGBや
Flowの空間から畳み込みにより候補領域を抽出，さらにはROI
Poolingを活用して行動認識の精度を高めるという戦略である．
R-CNNの一連の流れと異なる点として，
・RGBのみでなくFlow空間の畳み込み特徴も考慮したよりリッチな候
補を提案する
・行動認識の精度を高めるためにROI Pooling内にてStacked Flow
を用いる．
・Faster R-CNNの枠組みの中で行動認識という時系列のモデルを
扱えるようにしてframe-levelの行動検出も実現する．
・評価はUCF-Sports, JHMDB, UCF101に対して行った．右下図は
UCF-sports (左)，J-HMDB (右)に対しての行動検出の結果である．
提案手法は一番右の赤い棒グラフ (RGB-1+Flow5)で示される．
Links
論文 https://hal.inria.fr/hal-01349107/file/PC_ECCV16_TS-R-CNN.pdf
プロジェクト https://hal.inria.fr/hal-01349107

Limin Wang, Yuanjun Xiong, Zhe Wang, Yu Qiao, Dahua Lin, Xiaoou Tang, Luc Van Gool, “Temporal Segment
Networks: Towards Good Practices for Deep Action Recognition”, in ECCV, 2016.
【25】
Keywords: Temporal Segment Networks (TSN), Action
Recognition
新規性・差分
概要
効果的なDeep Learningベースの行動認識のための取り組み．
UCF101やHMDB51など動画単位の行動認識において非常に効果的
な解を与える．提案のTemporal Segment Networks (TSN)はビデオを
N(=3)等分にセグメント化して，それぞれのセグメントのスコアをのち
に統合する．セグメントごとの最適化や入力としてRGB, フレーム間差
分, Optical Flow, Warped Flowについて考察した．さらに，RGBの重み
を初期値に用いて時系列CNNを最適化するCross Modality Pre-
trainingも有効であるとした．
・HMDB51 (69.4%)や UCF101 (94.2%)とそれぞれのデータにて現在の
state-of-the-artを達成した．
・表からPre-trainingとしてImageNetを用いることや，Cross Modality
トレーニング，Partial BNが有効であった．
・Optical FlowやWarped Flowを組み合わせることや，RGBを組み合
わせることが有効であるとした．RGBのフレーム間差分はノイズが結
構激しく，オプティカルフローやWarped Flowからさらに精度向上させ
るには至らなかった．
Links
論文 http://wanglimin.github.io/papers/WangXWQLTV_ECCV16.pdf
プロジェクト
https://github.com/yjxiong/temporal-segment-networks
著者 http://wanglimin.github.io/

Matthias Mueller, Neil Smith, Bernard Ghanem, “A Benchmark and Simulator for UAV Tracking”, in ECCV,
2016.
【26】
Keywords: UAV Benchmark, Tracking
新規性・差分
概要
UAV (ドローン)のシミュレータから人物や物体など各種トラッキ
ングするためのベンチマークを作成した．同ベンチマークには
123の映像が含まれ，フレーム数は現在までで2番目に多い．
・UAVのシミュレータから教師あり学習が可能なトラッキングの
ベンチマークを提供した．
・14のトラッキングに関するstate-of-the-artなモデルを実装し，
ベンチマーク上にて評価を行った(右下図)．
Links
論文
https://ivul.kaust.edu.sa/Documents/Publications/2016/A
%20Benchmark%20and%20Simulator%20for%20UAV%20Tracking.pdf
プロジェクト
https://ivul.kaust.edu.sa/Pages/pub-benchmark-simulator-
uav.aspx

Gunnar A. Sigurdsson, Gul Varol, Xiaolong Wang, Ali Farhadi, Ivan Laptev, Abhinav Gupta, “Hollywood in Homes:
Crowdsourcing Data Collection for Activity Understanding”, in ECCV, 2016.
【27】
Keywords: Action Recognition, Daily Activity, Crowdsourcing
新規性・差分
概要
クラウドソーシングにより行動を収集し，AMTでデータセットのアノテーション
を行う，Charades Datasetを提案する．CharadesはYouTubeなど加工された
データではなく，日常生活における行動を収集することにより，汎用的な行
動認識を行えるようにしたものである．データセットのラベルには行動ラベ
ルや，行動位置，行動のセグメント，ビデオ説明文が付けられている．
・クラウドソーシングにより日常生活中の行動を収集する仕組みを考案し
た．
・データの特色として，動画中に付けられているインスタンス数が多いこ
とや267Homeと，リアルな空間で集めた映像が多いことである．
・従来のフレームワークを用いた実験では，Two-stream 14.3%, IDTが
17.2%, 全てを統合した場合でも18.6%と新規の仕組みが早急に必要であ
ることが判明した．
Links
プロジェクト http://allenai.org/plato/charades/
データセット http://allenai.org/plato/charades/

Lamberto Ballan, Francesco Castaldo, Alexandre Alahi, Francesco Palmieri, Silvio Savarese, “Knowledge
Transfer for Scene-specific Motion Prediction”, in ECCV, 2016.
【28】
Keywords: Knowledge Transfer, Motion Prediction, Trajectory Analysis
新規性・差分
概要
「人物が歩行者のパスを予測できるのは，事前情報がリッチであるから」という
仮説をおいて研究を行った．類似研究としてはKitaniさんのActivity
Forecasting．(1) モーション特徴や (2) 意味的な(semantic)情報を含めて歩行
者のパスを予測する研究を実施した．意味的な情報やモーション情報を用い
て，適切な画像パッチから特徴を抽出して予測に役立てる．その際にモデルと
してDynamic Bayesian Networkを用い，シーンの意味的情報を捉えた上で動
線の予測を実行する．モデルの他にはHoDirection (HoD)やHoSpeed (HoS)を
提案し，方向やスピードを考慮する．
・Activity Forecastingでは逆強化学習を用いて動線の予測を行ったが，本研
究では時系列情報をより反映させているので，途中のナビゲーションも考慮
する．
・歩行者と自転車を速度やアピアランスなどで分離して別々のパスを提案す
ることも可能．
・Knowledge Transferの強化により全くの道環境でも案内が可能．
Links
プロジェクト

De-An Huang, Li Fei-Fei, Juan Carlos Niebles, “Connectionist Temporal Modeling for Weakly Supervised
Action Labeling”, in ECCV, 2016.
【29】
Keywords: Connectionist Temporal Modeling (CTC), Weakly Supervised Action Recognition
新規性・差分
概要
Weakly Superised Learning (弱教師あり学習)の要領で行動認識を解決す
る．なお，現在の行動認識ではビデオに対してひとつのラベルが付与され
ているが，本論文で想定しているのはフレームごとにラベルを付与するこ
とである．モデルとしては音声認識にも使われるConnectionist Temporal
Modeling (CTC)を用いているが，それを改良したExtended CTC (ECTC)を
適用する．ECTCではDynamic Programmingを適用して可能な行動のパス
を効率的に探索することができる．詳細は動画でも確認できる．
・ビデオ認識のタスクに史上初めてCTCを使ったと思われる．
・ECTCを用いて弱教師あり学習の枠組みで時系列行動を扱えるように
なった
・Breakfast Actions DatasetやHollywood2 datasetに対して全体の1%の
教師あり学習(ほぼ動画に対するラベルのみ？)でフレームごとの推定
ができるようになった
Links
論文
http://cs.stanford.edu/people/dahuang/papers/ECCV16-
ECTC.pdf
著者 http://ai.stanford.edu/~dahuang/
動画 https://www.youtube.com/watch?v=RW5it641vIs

Abhimanyu Dubey, Nikhil Naik, Devi Parikh, Ramesh Raskar, Cesar A. Hidalgo, “Deep Learning the City:
Quantifying Urban Perception At A Global Scale”, in ECCV, 2016.
【30】
Keywords: Attributes, City Scale, Crowdsourcing
新規性・差分
概要
世界規模で都市環境を評価する仕組みを考案するため，画像のペアを多数
含んだデータセットや識別の仕組みを考案する．データセットPlace Pulse 2.0
は56の都市，1,170,000の画像ペア，81,630人の参加者によりラベル付けされ
た6つの属性 -- safe, lively, boring, wealthy, depressing, beautiful -- により構
成．CNNの構造はSiameseをベースとしており，ランキングロスやソフトマック
スロスにより誤差を計算する．
・クラウドソーシングによりゲームを構築し，アノテーションを行
わせた．
・人間が評価したラベルに対して，二つの誤差関数をもつネット
ワークを構築して同時最適化を行った
・評価結果は下表の通りである．
Links
論文 http://arxiv.org/pdf/1608.01769.pdf
プロジェクト

Jinghua Wang, Zhenhua Wang, Dacheng Tao, Simon See, Gang Wang, “Learning Common and Specific Features
for RGB-D Semantic Segmentation with Deconvolutional Networks”, in ECCV, 2016.
【31】
Keywords: Semantic Segmentation, RGB-D
手法
結果
概要
・RGB-D画像を主対象とした，Deconv型のCNNによるマルチ
モーダルのセマンティックセグメンテーション．ConvとDeconvの
中間にfeature transformation networkを配置し，RGBとdepthの
関連する特徴を抽出．
・VGG16ベースのDeconv型CNNを2つ使用．それぞれにRGBとdepthを入力．
・FC層で構成されるfeature transformation networkで，下図のように伝搬．
・common features同士は類似し，specific features同士は異なる方が良いため，MK-
MMD (multiple kernel maximum mean discrepancy)を使用し類似性を評価．

・NYU depth dataset V1（左下表）,V2（右下表）で従来手法やベースライン手法と比
較し，有効性を確認．
Links
新規性・差分
・従来手法（CNNによるRGB-D画像セマンティックセグメンテーショ
ン）では，RGBとdepthのCNNを個別に学習し最後にスコアを統合
する手法と，RGBDを4チャネルの入力とする手法があるが，どちら
もRGBとdepthの関連する特徴を十分抽出できない．
・提案手法では，feature transformation networkにより，common
features（RGB,depthに共通する特徴）と, specific
features（RGB,depthの一方のみで有効な特徴）を分けて学習．

score
fusion

Stephan R. Richter, Vibhav Vineet, Stefan Roth, Vladlen Koltun, “Playing for Data: Ground Truth from
Computer Games”, in ECCV, 2016.
【32】
Keywords: Semantic Segmentation
概要
・オープンワールドゲーム（グランド・セフト・オートV）の画像を，1枚
平均7秒でアノテーションし，セマンティックセグメンテーション用
データセット（25000枚）を生成．
・提案データセットとCamVidデータセットの1/3で学習し，CamVid
データセット全部で学習した場合と同等精度を達成．
Links 論文
http://download.visinf.tu-darmstadt.de/data/from_games/data/
eccv-2016-richter-playing_for_data.pdf
プロジェクト・コード・動画・データセット
http://download.visinf.tu-darmstadt.de/data/from_games/
新規性・差分
・ゲームとグラフィックAPI間の通信を傍受・操作することで，ソースコード・
演算・コンテンツにアクセス出来ない市販ゲームから，セマンティックセグ
メンテーション用データセットを生成．
・MTS (Mesh, Texture, Shader) が共通の領域を自動でアノテーションす
ることで，1秒あたり28万ピクセルのアノテーションを実現．

Ziwei Liu, Sijie Yan, Ping Luo, Xiaogang Wang, Xiaoou Tang, “Fashion Landmark Detection in the Wild”, in
ECCV, 2016.
【33】
Keywords: Clothes Landmark Detection, Cascaded Deep CNN, Attribute Prediction, Clothes Retrieval
新規性・差分
概要
ファッション認識のためにランドマーク検出やファッションのアライメント-- neckline, hemline,
cuff --を推定する．この取り組みを助長するためにFashion Landmark Datasetを提供する．
同データセットには120Kの画像が含まれ，各ファッションスナップ画像に対して8つのランド
マーク点が付与されている．このランドマーク検出のためにCascaded CNNを提案する．
Deep Fashion Alignment (DFA)ではDeepPoseと類似するアーキテクチャを採用しているが，
擬似ラベルを用いて探索範囲を削減しているため，DeepPoseよりも計算量を削減した．DFA
は3つのステージで構成され，最初のステージでは荒いランドマークを，次に局所的なオフ
セットが，最後にオフセットの中から文脈を考慮して最終結果がランドマークとして検出され
る．
・Fashion Landmark Datasetを提供
・DeepPoseよりも計算量を削減したDeep Fashion Alignment (DFA)を提案．
・Normalized Errorが平均で0.68を達成し，ランドマーク検出精度も下記のようなグラフとなっ
た．GTからの距離が10pxlsの際に約50%，20pxlsの際には約90%弱の検出率である．
Links
論文
http://arxiv.org/pdf/1608.03049.pdf
プロジェクト
http://mmlab.ie.cuhk.edu.hk/projects/
DeepFashion/LandmarkDetection.html

Bolei Zhou, Hang Zhao, Xavier Puig, Sanja Fidler, Adela Barriuso, Antonio Torralba, “Semantic Understanding of
Scenes through the ADE20K Dataset”, in arXiv, pre-pring 1608.05442, 2016.
【34】
Keywords: Scene Understanding, Scene Parsing, Large-scale database
新規性・差分
概要
シーン認識の総括的な画像解析を行うためのデータベースADE20K
datasetの提案．人物や物体のみでなく，人物や物体のパーツ (e.g. 顔
の部位，家具の一部)など詳細ラベルに関しても推定を行う問題を提供
する．さらにはセグメンテーション手法に関する提案も行った．セグメン
テーションやラベルの揺らぎを改良するようにコンセンサスも取って曖昧
性をできる限り排除した．
・物体や物体のパーツを捉えてセグメント分割するための新規手法
”Cascade Segmentation Module” (右下図)を提案し，物体ラベルだけで
なく，サブカテゴリについても認識可能とした．
・現在までのデータセット，特にシーン認識のそれよりも，詳細なという
意味とクラス数を増やすという意味で拡張した．表はセグメンテーション
手法のFCN，SegNet, DilatedNetなどと比較した結果である．Dilated
Convolutionを取り入れたCascade-DilatedNetがもっとも高い性能を示し
た．
Links
プロジェクト http://groups.csail.mit.edu/vision/datasets/ADE20K/

Zhaowei Cai, Quanfu Fan, Rogerio S. Feris, Nuno Vasconcelos, “A Unified Multi-scale Deep Convolutional
Neural Network for Fast Object Detection”, in ECCV, 2016.
【35】
Keywords: Object Detection, Faster R-CNN
概要
・高速にマルチスケール対応物体検出が可能なMS-CNN (multi-
scale CNN)を提案．Faster R-CNN同様，proposalとdetectionの
サブネットワークで構成される．KITTI, Caltechでstate-of-the-
art（順に10fps,15fps）．

Links
動画 https://www.youtube.com/watch?v=NQFCURgv_cY

新規性・差分
・従来手法のR-CNNは低速，Faster R-CNNは小さな物体に弱い．
・提案手法は，以下の(1),(2)により，高速・高精度にマルチスケール物体検出．
(1)各スケールに対応する出力層によるproposal
(2)deconvolutionによるfeature upsampling

Liliang Zhang, Liang Lin, Xiaodan Liang, Kaiming He, “Is Faster R-CNN Doing Well for Pedestrian Detection?”,
in ECCV, 2016.
【36】
Keywords: Faster R-CNN, Pedestrian Detection
新規性・差分
概要
歩行者検出をする際にはFaster R-CNNのようにリッチな表現
は必要なく，Region Proposal Net (RPN)とランダムフォレストを
ベースとした特徴評価で最先端の精度が出ることを確認した．
歩行者検出のフレームワークは右図のように示され，RPNから
bbox, スコア，特徴を返却し，歩行者検出を一部行い，精密に
Boosted Forestで評価する．
・RPNはstand-aloneでも14.9%のエラー率@Caltechを達成し，
BFやVGGNetと組み合わせると同データセットにて9.6%のエラー
率となる．(Caltech New Dataset [Zhang+, CVPR16]では7.3%の
エラー率となり最先端)
・その他，INRIAにて6.9%，ETHでは30.2%のエラー率となり，いず
れもstate-of-the-artを記録した．
Links
コード https://github.com/zhangliliang/RPN_BF

Sirion Vittayakorn, Takayuki Umeda, Kazuhiko Murasaki, Kyoko Sudo, Takayuki Okatani, Kota Yamaguchi,
“Automatic Attribute Discovery with Neural Activations”, in ECCV, 2016.
【37】
Keywords: Concept Discovery, Attribute Discovery, Saliency
Detection
新規性・差分
概要
ノイズを含むデータセットからいかに弱教師あり学習によりコン
セプトを学習するかを検討した．さらに，属性 (Attributes)や
ニューラルネットの活性ニューロンの関係性について考察す
る．右図のようにWeb上の画像やキャプション・タグからDNNに
より属性を学習し分布(KL Divergence)をもとにして顕著性の推
定や属性の発見を実行する．表はEtsy datasetの活性化した
ワード，下の図はベースラインと比較した顕著性の精度を示
す．
・Webから抽出したキャプションやタグなど弱ラベルから属性や
概念を発見 (Attribute Discovery, Concept Discovery)する．
・属性や概念を発見する際のニューロンの活性化の挙動を実
験的に明らかにする．
・弱教師付き学習学習による属性や概念発見のEtsy dataset
やWear datasetを提案した．
Links
プロジェクト
http://vision.is.tohoku.ac.jp/~kyamagu/ja/research/attribute-
discovery/

Yun He, Soma Shirakabe, Yutaka Satoh, Hirokatsu Kataoka, “Human Action Recognition without Human”, in
arXiv pre-print 1608.07876, 2016.
【38】
Keywords: Action Recognition, Without Human
新規性・差分
概要
「人を見ない人物行動認識」の提案．現在の行動認識のデータベースは背景に依存
しているということを実験により検証した．人物領域が含まれると思われる中心部の
切り抜き画像 (Without Human Setting)やそのインバース (With Human Setting)によ
り画像を生成した．Two-Stream CNNをベースラインとし，UCF101にてWithout
Human Settingが47.42%, With Human Settingが56.91%と非常に近接していることがわ
かった．
・現在の行動認識用のデータセットは背景に依存していること
が判明した．さらに，With Human Settingにも背景は含まれてい
るので，今後さらなる検討が必要である．
・今後，大規模データベースにおける時系列解析に対してより
強力な認識手法や洗練されたデータセットが必要であると実証
した．
Links
プロジェクト http://www.hirokatsukataoka.net/research.html

Hirokatsu Kataoka, Yun He, Soma Shirakabe, Yutaka Satoh, “Motion Representation with Acceleration
Images”, in arXiv pre-print 1608.08395, 2016.
【39】
Keywords: Action Recognition, Acceleration Images
新規性・差分
概要
モーション認識においてよく用いられるRGB画像やフロー画像
を位置や速度と捉えると，さらに2次の微分情報である加速度
画像 (Acceleration Images)という表現方法効果があると考えら
れる．現在まで加速度画像はノイズが激しく扱いが非常に困難
であったが，ディープラーニングを用いることで識別に有効な特
徴を自動で学習できることが判明した．
・加速度画像というものを動作認識に導入した．
・データセットは大規模なものではないが，Two-Stream CNNに
加速度画像を追加し，NTSELデータにてベースラインを超える
精度を実現した．Two-Stream CNNが87.5%であるのに対して加
速度画像は90.0%を達成した．個別の精度でもFlow画像は77.5%
であるのに対し，加速度画像を用いた認識では82.5%を実現．
Links
プロジェクト http://www.hirokatsukataoka.net/research.html

Ishan Misra, C. Lawrence Zitnick, Martial Hebert, “Shuffle and Learn: Unsupervised Learning using Temporal
Order Verification”, in ECCV, 2016.
【40】
Keywords: Human Action Recognition, Order Verification
新規性・差分
概要
開始・終了フレームが与えられた場合に，中間のフレームを学
習してオーダーを推定する．ポイントとしては，教師なし学習
で，3枚の連続するフレームの入力から中央フレームを推定し
て誤差を求めていく．右図のようにSiamese Netを用いてパラ
メータを推定する．この教師なし学習による認識では教師あり
学習には劣るものの，良好な性能を示した．(表より)
・行動認識におけるオーダーを学習し，教師なし学習により行
動を認識することに成功した．
・SiameseNetをベースとしたアルゴリズムにより動画のオー
ダーを教師なし学習．
Links
GitHub https://github.com/imisra/shuffle-tuple

Kevis-Kokitsi Maninis, Jordi Pont-Tuset, Pablo Arbelaez, Luc Van Gool, “Convolutional Oriented Boundaries”,
in ECCV, 2016.
【41】
Keywords: Contours, Object Proposals, CNN
新規性・差分
概要
CNNベースの物体境界線の推定方法であるConvolutional
Oriented Boundaries (COB)を提案．最先端の輪郭線
(Contours)推定や物体候補領域推定を実現した．右図のアー
キテクチャではResNet-50を採用，輪郭線のオリエンテーション
だけでなく強さまで表現し，高速な階層的処理を実現した．複
数階層の特徴を表現することにより，物体の外輪郭や内部に
含まれる詳細な輪郭の評価を行うことができる．
・ResNetを用いた外輪郭推定，物体候補領域推定を提案した．
その両者のタスクにおいてState-of-the-artな精度を実現．下
図はPascalVOCやMS-COCOにおける物体候補領域の精度．
・外輪郭に沿った物体候補領域の推定が行えるようになった．
Links
論文
http://www.vision.ee.ethz.ch/
~cvlsegmentation/cob/data/
COB_ECCV16.pdf
プロジェクト
http://www.vision.ee.ethz.ch/
~cvlsegmentation/cob/

Lingxi Xie, Qi Tian, John Flynn, Jingdong Wang, Alan Yuille, “Geometric Neural Phrase Pooling: Modeling the
Spatial Co-occurrence of Neurons”, in ECCV, 2016.
【42】
Keywords:
新規性・差分
概要
ニューロンの空間的な共起性を考慮した表現方法を提案する．
例えば，右図のように赤が対象の畳み込みによるニューロンだ
とすると，共起情報であるside wordsは緑: σ，青: σ^2により
重み付けされる．本論文では，GNPP (Geometric Neural
Phrase Pooling)を設けて単純な畳み込みに加えて共起表現を
加えている．
畳み込みのニューロンに対して共起表
現を与えるGNPPというプーリング方法
を提案した．右図の可視化のようにより
鋭敏に物体に対し反応することがわか
り，さらにImageNetを用いた物体識別に
おいても精度が向上することが判明し
た．
Links
論文
http://bigml.cs.tsinghua.edu.cn/~lingxi/PDFs/
Xie_ECCV16_GNPP.pdf
プロジェクト(コードあり)
http://bigml.cs.tsinghua.edu.cn/~lingxi/Projects/GNPP.html

David Held, Sebastian Thrun, Silvio Savarese, “Learning to Track at 100 FPS with Deep Regression Networks”,
in ECCV, 2016.
【43】
Keywords: Deep Regression Networks, 100FPS Tracking
新規性・差分
概要
初期位置が与えられた上でのCNNを用いたトラッキング方法を
提案する．右図のように前後フレームが与えられた際に画像が
どのように移動したかを推定するCNNモデルを考案すること
で，テスト時にも高速な推定を実行することができる．データ拡
張についてもモーションや並進，スケール変化を考慮して行う．
Tracker Netは畳み込みが5層，全結合層が3層で構成され，入
力は前後2フレームからそれぞれ追跡位置を切り抜いたパッチ
である．
・トラッキングにおいて非常に高速で100FPSを超えるフレーム
ワークを提案した
・2枚の画像を入力としたCNNベースのアーキテクチャにより，
高精度かつ高速な実装を実現した
Links
コード https://github.com/davheld/GOTURN

Praveen Krishnan, C. V. Jawahar, “Matching Handwritten Document Images”, in ECCV, 2016.
【44】
Keywords: Handwritten Document Match
新規性・差分
概要
異なる人物の手書き文章同士をマッチングする手法を考案し
た．データセットではIIT-HWSを提案した．IIT-HWSには9Mの文
字数，700ものフォントを含んでいる．CNNのアーキテクチャで
あるHWNetは5conv, 3fc, BNやsoftmax lossなどを実装し右図
のような構造である．
・データセットであるIIT-HWSを提案した
・手書き文章をマッチングさせるHWNetを提案
・手書き文章を比較するアプリケーションを実装
Links
論文
https://cvit.iiit.ac.in/images/ConferencePapers/2016/
MatchingHW_ECCV16.pdf
プロジェクト
https://cvit.iiit.ac.in/research/projects/cvit-projects/
matchdocimgs

Marian George, Mandar Dixit, Gabor Zogg, Nuno Vasconcelos, “Semantic Clustering for Robust Fine-Grained
Scene Recognition”, in ECCV, 2016.
【45】
Keywords: Fine-grained Scene Recognition, Semantic Clustering
新規性・差分
概要
似たようなシーンであるが，意味は大きく異なるもの同士(e.g.
bookstoreやmusic store)を分類するためのSemantic
Clusteringを提案する．Semantic Clusteringは右図で示される
ような流れであり，(a) シーンのクラスから (b) 物体のクラスに
投影され，(c) 各シーンの物体の発生頻度を解析して(d) クラス
タリングに活用される．(c)のシーンにおける物体の発生頻度は
確率で表現され，詳細シーン認識を行う上では重要な手がかり
となる．
・詳細シーン認識のためにSemantic Clusteringを提案した．各
シーンにおける物体の発生頻度を計算することで詳細分類が
可能となった．
・各データセットにてstate-of-the-artを達成し，さらにはcross-
domainにおける認識でも良好な性能を達成．
Links
論文
http://www.svcl.ucsd.edu/publications/conference/2016/
SemanticClustering/0253.pdf

Wenqi Ren, Si Liu, Hua Zhang, Jinshan Pan, Xiaochun Cao, Ming-Hsuan Yang, “Single Image Dehazing via
Multi-Scale Convolutional Neural Networks”, in ECCV, 2016.
【46】
Keywords: Dehazing, Multi-CNN
新規性・差分
概要
霧がかった画像をクリアにするDehazingの問題を解決するため
に，Multi-scale のCNNモデルを構築した．霧がかかった領域
やその度合いと復元された画像を学習して，Dehazingのための
Multi-scale CNNを構築する．トレーニングについてもNYUデー
タをベースとして構築した．ネットワークアーキテクチャも右図に
示す通りである．
・Multi-scale CNNのモデルにより，Dehazingを高精度に解決し
た
・Hand-craftedな手法やCNNベースの手法の詳細解析を行っ
た
Links
論文 https://drive.google.com/file/d/0B7PPbXPJRQp3TUJ0VjFaU1pIa28/view
プロジェクト
https://sites.google.com/site/renwenqi888/research/dehazing/mscnndehazing
コード
https://sites.google.com/site/renwenqi888/research/dehazing/mscnndehazing/
MSCNN_dehazing.rar?attredirects=0&d=1

Yi Zhou, Li Liu, Ling Shao, Matt Mellor, “DAVE: A Unified Framework for Fast Vehicle Detection and
Annotation”, in ECCV, 2016.
【47】
Keywords: Detection, Annotation, Vehicle, CNN
新規性・差分
概要
車両検出やアノテーションの仕組み (Detection and Annotation
for Vehicles; DAVE)を考案．ふたつのCNNである(1) 高速な車
両候補ネットや(2) 車両検出器およびアトリビュートの学習器に
より構成される．アトリビュートにはViewpoint, color, typeなどで
あり，車両の位置も含めてアノテーションされる．
・高速な車両検出器及びアトリビュートラベルを付与する仕組
みを考案した．
・GoogleNetをベースにしたアーキテクチャを構築
・Urban Traffic Surveillance (UTS) vehicle datasetを収集した
Links
プロジェクト

Chao Dong, Chen Change Loy, Xiaoou Tang, “Accelerating the Super-Resolution Convolutional Neural
Network”, in ECCV, 2016.
【48】
Keywords: Fast Super-Resolution, CNN
新規性・差分
概要
高速かつ高精度な超解像を，CNNを用いて実現した．右は従
来手法であるSuper-Resolution CNN (SRCNN)との比較であ
る．提案のFast SRCNNは前処理であるバイキュービック法を
必要とせず，非線形マッピングをshrinking, mapping, expanding
により置き換え，FSRCNNはより小さいフィルタサイズで深い構
造を保持している．
・24fpsを超える超解像変換をCNNにより行うことに成功した．
・従来のSRCNNと比較して，上記3つの改善が見られ高速化を
実現．
・Conv層とDeconv層がパラメータを共有している
・右の表が構造・入力サイズ・パラメータ数・スピード比・PSNR
などを示したものである．
Links
プロジェクト(コード，データあり)
http://mmlab.ie.cuhk.edu.hk/projects/FSRCNN.html

Xiangyun Zhao, Xiaodan Liang, Luoqi Liu, Teng Li, Yugang Han, Nuno Vasconcelos, Shuicheng Yan, “Peak-
Piloted Deep Network for Facial Expression Recognition”, in ECCV, 2016.
【49】
Keywords: Peak-piloted Facial Expression
新規性・差分
概要
顔表情認識は非常に難しい問題であるが，表情の最も認識し
やすいタイミングで表情認識を行う．この問題はPeak-Pilotedと
呼ばれ，Deep Networkにより表情認識を実行した．下図が
Peak/Non-Peakの学習を行うネットワーク構造であり，2枚の画
像を入力として識別誤差のCross-entropyを計算して最適化を
行う．学習最適化の計算をPeak Gradient Suppression (PGS)
により行う．
・通常は非常に難しい顔表情認識であるが，識別率が最も高
いピーク位置を抽出することにより，表情の認識率が向上する
ことがわかった
・Peak-Piloted Deep Network (PPDN)により表情認識を高精度
にして，さらにPPDNを最適化するためのPGSを提案した
Links
プロジェクト

Anita Sellent, Carsten Rother, Stefan Roth, “Stereo Video Deblurring”, in ECCV, 2016.
【50】
Keywords: Stereo Deblurring
新規性・差分
概要
ステレオマッチングのために，ビデオ映像のブラー補正を行う．
物体の独立なモーション推定のためにローカルブラーカーネル
を推定(右図)，画像平面の領域をセグメントして(中央図)，物体
境界を推定する(下図)．ホモグラフィや画像勾配を想定したモ
デルを適用し，IRLS (iteratively reweighted least squares)によ
り最適化．
・前後フレームから得られる画像をステレオとしてブラー補正を
行った
・ローカルなブラーカーネルを推定することで，物体に独立な
モーションをそれぞれ推定可能とした
Links
プロジェクト

Ke Li, Jitendra Malik, “Amodal Instance Segmentation”, in ECCV, 2016.
【51】
Keywords: Instance-level Segmentation, Occlusion
新規性・差分
概要
インスタンスレベルのセマンティックセグメンテーションにおい
て，誤りを補正する．右図の例では，馬の領域内に人物領域が
入り込んでいるため，異常と判定されている．異常セグメンテー
ションのアノテーションは手に入らない上に領域ベースで異常
を修正することは非常に困難なタスクであるが，下図のようにラ
ンダムな物体をセグメンテーション位置において異常領域を学
習する．ベースにはIterative Instance Segmentation [Li+,
CVPR16]を使用．
・インスタンスセグメンテーションに対して異常がある際
の修正法を提案した
・セグメンテーションのアノテーションに対してランダムに
ノイズを含ませることでこれを解決
Links
プロジェクト

Justin Johnson, Alexandre Alahi, Li Fei-Fei, “Perceptual Losses for Real-Time Style Transfer and Super-
Resolution”, in ECCV, 2016.
【52】
Keywords: Style Transfer, Super Resolution
新規性・差分
概要
GatysらのStyle Transferと比較して，似たような結果で約1000
倍の高速化を図り，動画に対するStyle Transferを現実的なも
のにした．Perceptual Content Lossについて，Style Transfer時
にはターゲット画像と入力画像のロスを最小化し，超解像の際
にはGTとの誤差を最小化する．さらに，Style Transferには
Perceptual Style Lossを用いる．グラム行列におけるユークリッ
ド距離を計算して最小化．
・従来のStyle Transferと似たような結果でかつ約1000倍
の高速化を実現した．右の表や図に結果が示されている
・同じアーキテクチャで誤差関数の定義を変更すること
で，超解像もできることが判明した．
Links
論文
http://cs.stanford.edu/people/jcjohns/papers/eccv16/
JohnsonECCV16.pdf
コード https://github.com/jcjohnson/fast-neural-style
プロジェクト http://cs.stanford.edu/people/jcjohns/eccv16/

Qian-Yi Zhou, Jaesik Park, Vladlen Koltun, “Fast Global Registration”, in ECCV, 2016.
【53】
Keywords: ICP, Ransac, Global Matching
新規性・差分
概要
大域的な3次元サーフェイスのマッチングを実現した．初期化な
しで密な表面形状の最適化を行うことができる．右図は2Dポイ
ントの例である．青が正解の対応，赤が誤対応であるが，でき
る限りサンプリングや検証などの処理を省く最適化を考案し
た．
・ICPよりも数倍，RANSACよりも50倍高速な処理を実現した．
・エラーをRMSEにより計算した結果，下表に示すような結果が
得られた．
Links
論文 http://vladlen.info/papers/fast-global-registration.pdf
プロジェクト

Seong Joon Oh, Rodrigo Benenson, Mario Fritz, Bernt Schiele, “Faceless Person Recognition; Privacy
Implications in Social Media”, in ECCV, 2016.
【54】
Keywords: Person Detection, Faceless Detection
新規性・差分
概要
プライバシーを保証するために，顔を見ないで人物認証を行う
手法について検討した．頭部領域に対してブラーがかった画像
に対して人物認証を行うという問題になる．学習にはタグ付け
された顔画像入りの画像を用いることができるが，テスト時に
は顔を隠して認証を行う．認証にはCRFを用いた．
・Faceless Person Recognitionというフレームワークを提案し
た．
・右図はVisible, ブラー，黒抜きの比較である．黒抜きよりもブ
ラーの方が精度が高いことがわかる．

Links
論文 https://scalable.mpi-inf.mpg.de/files/2016/10/16.pdf
プロジェクト

Matthias Soler, Jean-Charles Bazin, Oliver Wang, Andreas Krause, Alexander Sorkine-Hornung, “Suggesting
Sounds for Images from Video Collections”, in ECCVW, 2016.
【55】
Keywords: Suggesting Sounds, Sounds Retrieval
新規性・差分
概要
画像から連想される音声・音楽をサジェストする手法を提案した．背景音
楽などノイズがあり必ずしも画像と音声は対応付けられるものではないが
提案手法ではクラスタリングベースの教師なし学習による方法でノイズを
出来る限り排除した．右図はビデオやオーディオとの対応を生成している
図である．オーディオ特徴にはMFCCを，ビデオ特徴としてはCNNの全結
合層を用いた．さらに，ビデオとオーディオの相関を元にして特徴表現を
行った，クラスタリングはkNNを使用．
・画像と音声，マルチモーダルを用いた研究として画像からの
音声検索を実現した．
・相関を用いる手法とそうでないものでは，両者の統合による
手法が良いことが判明した．（右下図）
Links
論文
http://www.ahornung.net/files/pub/2016-eccvws-
suggestingsounds-soler.pdf
プロジェクト
https://www.disneyresearch.com/publication/sounds-for-images/

Jonathan Krause, Benjamin Sapp, Andrew Howard, Howard Zhou, Alexander Toshev, Tom Duerig, James Pilbin,
Li Fei-Fei, “The Unreasonable Effectiveness of Noisy Data for Fine-Grained Recognition”, in ECCV, 2016.
【56】
Keywords: Scale up Fine-grained Category
新規性・差分
概要
詳細画像認識(Fine-grained Recognition)は大量の画像学習を
行うことでさらにスケールアップできると主張した．Cross-
domain noise, Cross-category noiseを含むデータセットである
が，Active Learningを行うことで，これらを含むデータであって
もクラスラベルを増加しても精度よくラベルを推定するに至っ
た．
・ノイズを含むデータからの学習により詳細画像認識のクラスを
増加することに成功
・正解ラベルなしに拡張することができた
・鳥の種類は10,000種類，蝶の種類は14,000にまで拡張した
Links
プロジェクト

Michael Opitz, Georg Waltner, Georg Poier, Horst Possegger, Horst Bischof, “Grid Loss: Detecting Occluded
Faces”, in ECCV, 2016.
【57】
Keywords: Face Detection, Occlusion, Grid Loss
新規性・差分
概要
CNNに対してGrid lossと呼ばれる，オクルージョン対応を行う誤
差関数を提案することにより顔認識の精度を向上させることが
できる．誤差関数は下式により示され，畳み込みレイヤ f をブ
ロックごとに分割 (f_i)し，ブロックごとに検出器 w_iを評価．共有
重みである wによりレイヤの特徴を表現する．
・オクルージョンを対応するための誤差関数であるGrid lossを
提案した．グリッドごとに特徴を取り出し検出器を評価すること
により，例として顔検出の精度を向上させることに成功した．
Links

Yunzhu Li, Benyuan Sun, Tianfu Wu, Yizhou Wang, “Face Detection with End-to-End Integration of a ConvNet
and a 3D Model”, in ECCV, 2016.
【58】
Keywords: Face Detection, Multi-task, 3D model
新規性・差分
概要
顔認識において3Dモデルの平均や2D画像の特徴量により認
識を実行する．3Dと2Dの共通特徴を学習するためにMulti-task
Lossを定義する．3Dモデルからの候補領域を抽出できること
や，Configuration poolingにより顔検出のための検証を行うこと
ができる．全体的なネットワークの構造は右図の通りである．
・2D画像のみならず，3Dの顔モデルを用いることで，例えば候
補領域の生成などにメリットがある
・マルチタスク学習により2Dと3Dの共通特徴を学習可能であ
る．
・ベンチマークであるFDDBやAFWにて良好な性能を達成した
Links
コード https://github.com/tfwu/FaceDetection-ConvNet-3D

Johannes L. Schonberger, Enliang Zheng, Marc Pollefeys, Jan-Michael Frahm, “Pixelwise View Selection for
Unstructured Multi-View Stereo”, in ECCV, 2016.
【59】
Keywords: Multi-View Stereo
新規性・差分
概要
多数の画像から対応点マッチングを行い，空間の3次元形状を
復元するMulti-View Stereoの問題設定．オクルージョン・立体
視・解像度・ビュー変換などの事前情報からピクセルレベルで
のビュー選択が可能になった．
・パッチのマッチング手法を新規に考案し，距離画像・法線・オ
クルージョンを同時推定できる枠組みを考案した．
・フォトメトリックや幾何的な事前情報によりPixelwiseにビュー推
定が可能となった．
・Multi-viewの幾何的な整合性を考慮．
・これらの相補的な作用により，従来よりも密な点群推定が可
能となった．
Links
論文
https://www.cs.unc.edu/~ezheng/resources/mvs_2016/
eccv2016.pdf
YouTube https://www.youtube.com/watch?v=GRW2APWn9wY

Victor Escorcia, Fabian Caba Heilbron, Juan Carlos Niebles, Bernard Ghanem, “DAPs: Deep Action Proposals
for Action Understanding”, in ECCV, 2016.
【60】
Keywords: Action Proposals
新規性・差分
概要
CNN-RNN連結による時系列解析により，高速な行動候補領域
の推定を実現した．画像特徴にはxytの畳み込みを採用した
CNNであるC3Dを，シーケンスの記述にはLSTMを用いることで
長期の候補領域を生成するに至った．
・C3DとLSTMのコンビネーションにより，高速(> 130fps)な人物
行動の候補領域生成に貢献した．
・THUMOS-14 datasetに対する候補領域数やRecallの対応表
は右に示す通りである．
Links
論文 https://ivul.kaust.edu.sa/Documents/Publications/2016/
DAPs Deep Action Proposals for Action Understanding.pdf
プロジェクト https://ivul.kaust.edu.sa/Pages/pub-Daps.aspx

T. Nathan Mundhenk, Goran Konjevod, Wesam A. Sakla, Kofi Boakye, “A Large Contextual Dataset for
Classification, Detection and Counting of Cars with Deep Learning”, in ECCV, 2016.
【61】
Keywords: Aerial Images, Car Detection
新規性・差分
概要
航空画像からの車両検出に対して，データセットを公開した．モ
デルとしてはGoogleNet-v4を参考にしてResCeption Layerを提
案して，高精度な航空画像における車両検出を実行した．
・航空画像における車両検出の問題
に対してデータを公開した．
・ResCeption Layerを提案
・比較結果は右表
Links
プロジェクト http://gdo-datasci.ucllnl.org/cowc/

Jun Liu, Amir Shahroudy, Dong Xu, Gang Wang, “Spatio-Temporal LSTM with Trust Gates for 3D Human
Action Recognition”, in ECCV, 2016.
【62】
Keywords: LSTM, 3D Action Recognition
新規性・差分
概要
LSTMを用いた，時系列行動認識に関する研究．人体スケルト
ンを入力として，LSTMにより認識を行うが，Trust Gateの提案
によりノイズに対して頑健な認識を行うことができる．信頼でき
る時間情報のみ再帰的な入力を行う．
・LSTMに対してTrust Gateの提案により信頼できるスケルトン
ベースの行動認識を行うことができた
・NTU RGBD，SBU Interaction，UT-Kinectなどのデータにて
State-of-the-artな精度
Links
プロジェクト http://www.eccv2016.org/files/posters/P-2B-13.pdf

ご質問・コメント等ありましたら，cvpaper.challenge@gmail.com / Twitter@CVPaperChallengまでお願いします．

ECCV 2016 まとめ

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to ECCV 2016 まとめ

Similar to ECCV 2016 まとめ (20)

ECCV 2016 まとめ