ICCV 2017 速報

ICCV2017速報
⽚岡裕雄, 原健翔
鈴⽊亮太, 阿部⾹織, Yue Qiu, 鈴⽊智之, ⼤喜周平, 張⾬⾠
https://sites.google.com/site/cvpaperchallenge/

概要
•  CV分野のトップ会議ICCV2017の参加速報
–  CVPR2017速報の続編
※ SlideShare (https://www.slideshare.net/cvpaperchallenge/cvpr-2017-78294211)より
–  速報性を重視したためメモ程度であることにご注意
–  全ての論⽂に⽬を通しているわけでは無いが，著者らがで
きる限り聴講して議論を⾏った
–  事前の論⽂読み会も実施しています
–  気づきや今後の⽅針について，できる限りCVPR2017時と
異なることを（頑張ってひねり出して）書いています

その前に（かなり⼤雑把な）DNNの概要
-  CVPR 2017 速報の再掲です
cvpaper.challengeでは2018の論⽂投稿に向けてメンバーを募集しています！
https://sites.google.com/site/cvpaperchallenge/recruit

DNNの動向（1/8）
•  DNN時代以前の動向
–  Perceptron, MLP, Neocognitron, BackProp, CNN
–  DNNが流⾏る前の画像認識では局所特徴が使⽤
1st AI 2nd AI 3rd AI
F. Rosenblatt et al. “Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms” in 1961.
Rumelhart et al. “Learning representations by back-propagating errors” in Nature 1986.
K. Fukushima, “Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position”, in
1980
Y. LeCun et al. “Gradient-based learning applied to document recognition” in IEEE 1998.

•  ILSVRCを発端とする画像識別タスクへの応⽤
–  AlexNet @画像認識コンペILSVRC2012
•  第⼀著者Alexさんのネットワーク（仕掛け⼈のHintonNetになってたかも？）
–  背景にはBelief Propagation, ReLU, SGD, Dropoutなど構
造をDEEPにする技術が揃ってきた

DNNが勝てた背景
–  ImageNet!（データが最も重要）
–  NVIDIA!（圧倒的な計算⼒）
http://www.image-net.org/
http://cvpr2017.thecvf.com/
×

•  構造の深化
–  2014年頃から「構造をより深くする」ための知⾒が整う
–  現在（主に画像識別で）主流なのはResidual Network
AlexNet [Krizhevsky+, ILSVRC2012]
VGGNet [Simonyan+, ILSVRC2014]
GoogLeNet [Szegedy+, ILSVRC2014/CVPR2015]
ResNet [He+, ILSVRC2015/CVPR2016]
ILSVRC2012 winner，DLの⽕付け役
16/19層ネット，deeperモデルの知識
ILSVRC2014 winner，22層モデル
ILSVRC2015 winner， 152層！(実験では103+層も)

•  他タスクへの応⽤（画像認識・動画認識）
–  R-CNN: 物体検出
–  FCN: セマンティックセグメンテーション
–  CNN+LSTM: 画像説明⽂
–  Two-Stream CNN: 動画認識
Person
Uma
Show and Tell [Vinyals+, CVPR15]
R-CNN [Girshick+, CVPR14]
FCN [Long+, CVPR15]
Two-Stream CNN [Simonyan+, NIPS14]

•  画像⽣成・強化学習への移⾏
–  GAN: 敵対的学習，Generator（G）と
Discriminater（D）が競い合いリアルな画像を⽣成
–  DQN: 強化学習モデル
https://www.slideshare.net/nmhkahn/generative-adversarial-
network-laplacian-pyramid-gan

•  DNNのフレームワークが次々にリリース
–  Caffe/Caffe2, Theano, Chainer, TensorFlow, Keras,
Torch/PyTorch, MatConvNet, Deeplearning4j, CNTK,
MxNet, Lasagne
（順不同，その他多数）
–  特に，Caffeが出てきてからCVにおけるDNNの研究は爆発
的に広がった

•  現在も進化の⼀途を辿り，社会実装が進む
–  ⾃動運転/ADAS
–  ロボティクス
–  ファッション
–  画像/動画検索
–  物流（ピッキング等）
–  等
研究者としては「こんなこともできる」を世に出したい

ICCV 2017の動向・気付き
-  今回どんな研究が流⾏っていた？
-  海外の研究者は何をしている？
-  「動向」や「気付き」をまとめました

ICCV2017の動向・気付き（1/22）
–  3D Convolution（xyt/xyz/xy+α）が加速しそう
•  もともとはパラメータが多く⼩規模データでは過学習気味
•  データスケール/コードレベルで枠組みが整い，誰でも再現可
–  論⽂例
•  Pseudo-3D Conv
•  3D-ResNets（コードあり）
–  https://github.com/kenshohara/3D-ResNets-PyTorch

–  ⾼次なラベルを返却する⼿法が登場
•  識別（e.g. ⽝）に対して意味（e.g. 危険，異常）に踏み込む
•  ⼈間の直感による正解ラベルが必要
–  クラウドワーカーの⼒が必須？
•  ⼈間の直感，さらにはクラウドワーカーの集合知を結集
•  ⼿元では到底処理しきれないレベルのアノテーションを解決
•  同時にN⼈に発注，クロスチェックによりラベルの質を保証

–  合成データの重要性が説かれる
•  （時間さえかければ）⼤規模データを⽣成できる
•  データバリエーションを⽤意に拡張可能（スケール/ビューポイン
ト/ノイズ/オクルージョン/背景など）
•  アノテーションの質はコントロールできる
–  特に⼈物系のデータの場合，プライバシーを保証
•  昨今では個⼈情報保護法など法令の遵守が重要
•  「存在しないと思われる⼈」のデータを合成する
•  ファッション/⼈物⾏動など特に⼈の研究は合成データが必要

–  ジョイント学習がさらに増えた
•  3つ以上のタスクを同時学習する⼿法も現れている
•  データセットをまたいで学習できる

–  特徴表現学習
•  教師なしで特徴表現を学習してしまう
•  ImageNetやPlacesを置き換えるような学習の仕組みが今後登場？
•  上記２つのデータセットは画像識別⽤であるが，問題に合わせて特
徴表現を学習できたら良い

–  徹底⽐較により研究分野を整理する
•  DNN研究が「こうしたら良くなった」という実験的向上の繰返し
•  誰かが体型的にまとめたマニュアル的論⽂が重宝
–  新しい論⽂の書き⽅？
•  （会議の性質にもよるが）Top-tierの会議に⽐較論⽂が通ることは
稀であった
•  成功事例集/失敗事例集をまとめた論⽂は新しい知⾒を与え，分野
の加速に寄与することから採択している（と解釈できる）

–  画像⽣成が⼈気(GAN,VAE)
•  2D→3D（xyz,xyt）
•  逆もある(3D→2D)
•  現状できる中でより良いコンセプトを選択
–  低解像度でもできる細胞とか顔とか
–  決定的な定量的評価がほとんどない
•  ⼤部分がユーザー評価を含む
–  ⼤規模なユーザー評価を⾏う場合，かなりの⼈⼿が必要

–  画像⽣成ではなく，より⾼精度にするためにGANを使⽤
•  戦いの中で強くなる識別器を提案
•  画像⽣成（ラベル付きデータ数）と画像識別器（⽣成を⾼度にしな
がら⾃ら賢くなる）のせめぎ合いで精度向上
–  タスクの複雑化
•  画像識別 => 物体検出 => セマンティックセグメンテーション
•  動画，RGB-D，3Dポイントクラウド?

–  説明性を与えるDNNモデルや構造改善
•  精度が出ていても「なぜ？」の部分ができていないとアプリケー
ションにはできない
•  活性部分を表⽰（Grad-CAM），視覚的理由付け（Visual
Reasoning）

–  ImageNetの学習済みモデルに頼るのはそろそろ限界？
•  タスクが複雑になり画像識別から乖離しているにもかかわらず
ImageNetの特徴に頼るのはナンセンス！（と偉い⼈が⾔っていた）
•  タスク別の洗練された特徴が必要だが，データを⼤量に収集，かつ
リッチなラベルを付与するのは限界がある => 教師なしで実世界の
特徴を獲得する⼿法が必要？
•  もちろん，タスクによってはImageNetは多⼤なる効果を発揮する

–  予測という⾼次な情報を推定
•  時間 t の状態が⾼度に観測できるようになったので t+n
の状態を予測する
•  少し調べただけでも下記のような論⽂が⾒つかる
•  Predicting Human Activities Using Stochastic Grammar
•  First-Person Activity Forecasting With Online Inverse Reinforcement Learning
•  Visual Forecasting by Imitating Dynamics in Natural Sequences
•  Fashion Forward: Forecasting Visual Style in Fashion（ファッションスタイルの予測）
•  The Pose Knows: Video Forecasting by Generating Pose Futures
•  What Will Happen Next? Forecasting Player Moves in Sports Videos
•  Encouraging LSTMs to Anticipate Actions Very Early
•  Anticipating Daily Intention Using On-Wrist Motion Triggered Sensing

–  技術が成熟してきたことで産業応⽤が加速する！
–  例：葉っぱセグメンテーション/カウントワークショップ
•  Link: https://www.plant-phenotyping.org/CVPPP2017
–  ⽇本は産業に⼒を⼊れている印象であり，より産業応⽤に
近い研究でプレゼンスを取るべき？
–  SSII/ViEWなどはまさにそのフィールド
•  SSII: https://conﬁt.atlas.jp/guide/event/ssii2017/top
•  ViEW: http://www.tc-iaip.org/view2017/

–  アプリケーション寄りの研究が増加
•  Vision for Xというセッションが存在
–  Fashion Concept Discoveryや
Predicting Privacy Risksなど内容は様々
•  それ以外のセッションでもファッション関連の研究など
出⼝が近い研究がいくつも⾒られる
–  出⼝が近くなると評価の仕⽅も変わってくる
–  単純な教師付き学習での評価尺度から離れていくことも
今後進んでいく？

–  ⾺をシマウマに変換しよう！
•  CycleGANより
•  「だからどうした！？」だけど、みんなが⾔うとものすごく⼤きな
宣伝効果になって論⽂を読んでもらえる
•  ⾺をシマウマに変換する画像はおそらくWeb⽤
最も効果的なプレゼンを適切なチャンネルで⾏う
https://junyanz.github.io/CycleGAN/

–  トップの研究者は難しいことを理路整然と説明
•  難しい理論もわかった気になってしまう！
•  論⽂は難しい，がプレゼンは⾮常にわかりやすいという⼈もいる
（発表を聞きに⾏こう！）

–  研究者の動きが激しい
•  特に，企業に移る⼈が多くなった
•  トップ会議やジャーナルに突破している⼈も移る（世界的に有名な
先⽣も完全移籍する噂も出るくらい）
•  海外でも10年後には企業から⼤学の先⽣になる⼈も多くなる？

–  CVPR2017と⽐較して「進展した！」というほどではない
•  CVPR2017は7⽉末，ICCV2017は10⽉末
–  ３ヶ⽉しか経ってない
•  CVPRでリジェクトされた論⽂も相当数ICCVに投稿され
る？
–  研究されたのはほとんど2016年？
–  とすると劇的な進展があるのは2018年の会議？
2018年の動向に注⽬！？（今後進展するか硬直するか）

–  ⽇本のプレゼンスは確実に落ちている
•  池内先⽣（General Chair）の投稿からも読める
–  https://www.facebook.com/katsushi.ikeuchi/posts/10208157860862612
•  参加者・投稿数から減っている
•  投稿数：ICCVは（特別）難しいという印象がある？（ICCVだって
いち国際会議である）
•  参加数：論⽂がオンラインで読めるから完結？（原因は他にも）
継続的に参加・投稿して査読を突破しよう！
まずは⼀⼈⼀本，投稿しよう！！

–  中国の勢いがすごい！
•  今に始まった話ではないが，やはりすごい（下図USAにも中国勢が
いるはずなので実質的にはトップ？）
•  ⼈⼝が多い以上に，勢いがある
•  「とにかくみんな論⽂出そう」とか「研究資⾦，⼈材，データなど
を集めて戦えるような体勢に」など⾒習わないといけない
https://www.facebook.com/katsushi.ikeuchi/posts/10208157860862612

–  独国⼤学の卒業条件
•  会場で聞いたリアル
•  メジャーな国際会議に２本以上論⽂を通すこと
–  この分野だとCVPR/ICCV/ECCV/NIPS/ICML等
•  世界的に知名度の⾼いジャーナルに１本以上論⽂を通すこと
–  この分野だとTPAMI/IJCV/TIP/PatternRecognition/CVIU等
•  プレッシャーと戦いながらも楽しそうに研究している！
–  実際にドロップアウトする⼈ももちろんいる
•  ⼈に⾒てもらえる会議でないと意味がないという考え？
–  実際に使ってもらえる技術もその中で磨かれる

–  プロジェクト化しよう
•  論⽂を連続的に出せる仕組みを構築
•  グループで研究しよう！
•  国際会議１：データセットを考案
•  国際会議２：発展⼿法を提案
•  国際会議３：別視点（別問題）で論⽂を執筆

–  他の分野の勉強をしよう
•  CVも他の分野と結びつくことで発展する
勉強会など集まりがあったら積極的に参加しよう！

これから引⽤されそう（流⾏りそう）な論⽂
-  すでに引⽤されている論⽂も含みます

引⽤されそうな論⽂（1/18）
•  Mask R-CNN (ICCV Marr Prize)
–  物体検出とセグメンテーションを回帰してインスタンスセ
グメンテーションを⾼度化
–  RoIAlignで抽出する特徴と⼊⼒画像サイズを⾼精度でalign
–  backboneである特徴抽出の段階，ResNeXtを⽤いる

•  Genetic CNN
–  ⾃動的にディープネットワーク構造を学習する⼿法の提案
–  遺伝アルゴリズムを利⽤し，サーチ空間を探索する
–  固定⻑なバイナリストリングで従来のディープネットワー
クをエンコーディングする⼿法を提案した
タスクごとに最適なネットワークを発⾒？

•  Photographic Image Synthesis With
Cascaded Reﬁnement Networks
–  セマンティック画像から⾼解像度写真を合成する⼿法
–  GANを使⽤せずに，end-to-endなフィードフォワード
ネットワークで⾼解像度画像を⽣成できることを⽰した
ビデオ: https://www.youtube.com/watch?v=0fhUJT21-bs

•  SSD-6D: Making RGB-Based 3D Detection
and 6D Pose Estimation Great Again
–  One-shot RGB画像から物体検出と3次元6D姿勢を出⼒
–  Inception v4を⽤いて画像から多スケールな特徴抽出，SSDベースな⼿法で物
体検出と姿勢推定
RGB画像だけでも⾼精度で3次元情報を推定できることを⽰した

•  KD-network
–  3次元認識のためのディープラーニング構造KD-networkを
提案した
–  様々な3次元認識タスクに活⽤可能（物体識別，セマン
ティックセグメンテーション，形状補完など）
octree, r-treeなどの幾何構造でディープラーニングの構造にできる？

•  Playing for Benchmark
–  ゲーム動画から25万枚以上の⾼解像度画像からあるデータセット提案
（ビデオフレーム，全部ground truthあり）
–  様々なタスクに適応可能（セマンティックセグメンテーション，インスタンスセグメン
テーション，三次元シーンレイアウト分析，視覚オドメトリー、オプティカルフローなど）
動画：https://www.youtube.com/watch?v=T9OybWv923Y

•  Grad-CAM
–  あらゆるCNNベースな⼿法が“どこを⾒ている”のかを可視
化できる⼿法の提案
–  従来の可視化⼿法より⾼解像度の結果（下図4列⽬）
–  マルチタスクに適応（画像分類，画像説明⽂，ビジュアル質問回答）

•  CycleGAN
–  2枚の画像ペア間の変換を学習するGANの⼿法を提案
–  従来⼿法との違いが1対1のペアじゃない場合でも学習可能
画像を変換する⼿法なので，様々な場⾯で実⽤できそう

•  What Actions are Needed for
Understanding Human Actions in Videos?
–  これまでの⾏動認識⼿法やデータセットを
様々な⾓度から分析
–  現状の位置づけと今後の⽅向性を議論
•  これまでの⼿法は何を学習していたのか？
•  ⾏動を理解するためにはどのようなクラス設計が必要か？

•  Detect to Track and Track to Detect
–  ビデオから同時に物体検出と追跡を⾏うend-to-endなネッ
トワークを提案
–  隣接するフレーム間の対応関係を表すcorrelation feature
を提案
•  従来のネットワークより構造的に簡単

•  Deformable Convolutional Networks
–  CNNのconvolutionカーネルの形状を学習ベースで可変に
する⼿法の提案
–  deformable convのreceptive ﬁeldを可視化すると、物体
ごとに定性的に妥当な領域になっていることが確認できた
コード：https://github.com/msracver/Deformable-ConvNets

•  First Person Activity Forecasting
–  ⼀⼈称カメラからの⼈物⾏動予測を実⾏する
ためのオンラインでの逆強化学習
–  従来の逆強化学習は⾏動を観測して報酬（予
測対象）を学習するに⽌まっていたが、本論
⽂で提案のOnline IRLはストリーミングされ
る動画から状態やその遷移、報酬、⽬的地ま
でを推定可能

•  TorontoCity Dataset
–  ⾃動運転，都市解析などに応⽤
–  多種センサ（カメラ，ステレオ，LiDAR，ドローン等）より観測された超⼤規模DB
–  ⾼度な地図情報からアノテーションを実施

•  Mapillary Vistas Dataset
–  世界規模の位置情報と意味ラベルが付与されたデータ
–  100種の物体，インスタンスごとの切り分け，時間帯，位
置，カメラの種類まで提供されている

•  Dense Captioning Events in Videos
–  動画像中のイベントを説明
–  Denseは空間的にではなく，時間的に重なっていても同時
に複数の説明⽂を返却，という意味で使われている
–  ActivityNet Challengeでも同タスクが開催された
http://activity-net.org/challenges/2017/

•  Learning to Reason: End-to-End Module
Networks for Visual Question Answering
(Spotlight)
–  ⼊⼒された質問の意味をくみ取って答えを返すVisual Question
Answeringネットワーク(N2NMNs)を提案
複数のタスクを⼀つのアプリケーションにまとめられる！

•  Learning Spatio-Temporal Representation
with Pseudo-3D Residual Networks
–  3D Convolutionを普通に使うのは⼤変
–  1x3x3 (spatial) と 3x1x1 (temporal) の組み合わせで
3x3x3 (spatio-temporal) convolutionをするPseudo-3D Conv

•  Open Set Domain Adaptation
–  従来のDomain Adaptationは基本的に
SourceとTargetのクラスが同じという設定 (Closed set)
–  認識対象以外の画像やSourceにしかないクラス，
Targetにしかないクラスが存在するという実シーンに近い
Open setでのDomain Adaptationを提案

フォーカスすべき研究分野
-  ICCVにてディスカッションした結果

フォーカスすべき研究分野（1/8）
•  3D Convolution
–  より⾼次なカーネルでの畳み込みが重要
–  時系列処理（xyt），実空間処理（xyz），ライトフィール
ド（xyuv）など2D+α
–  当プロジェクトでも3DカーネルのPyTorchのコードや学習
済み時系列モデルを提供
•  3Dカーネルを持つResNetsをKinetics Human DBで学習
•  3D-Resnets-PyTorch: https://github.com/kenshohara/3D-ResNets-PyTorch
•  3D-ResNets-Torch: https://github.com/kenshohara/3D-ResNets

•  より⾼次なラベルを返却するモデル
–  ⼈間の知識や直感等をコンピュータに実装
•  危険，異常，不快，など
–  画像キャプション/質問回答はより進化する？
•  画像の事象を総括的に捉える，組み合わせて初めて明らかになる知
識の獲得
–  画像に⾒えないものを推定
•  ⾏動予測，未来の状態推定

•  ⾼度な教師なし学習
–  ⼈間を真似て教師あり学習を倒せるような学習を考案
–  教師なしでパラメータ学習して，画像識別タスクで
ImageNet学習済モデルに勝てたら⾼度と⾔っていい？
–  ImageNetに置き換わるような特徴表現学習を実施！

•  説明できるコンピュータ
–  Beyond 100%?
•  https://www.slideshare.net/SeiichiUchida/cnn-65229102
–  100%認識できるよりも，80%の性能でも残りの20%を
「説明できること」（なぜなぜ質問をコンピュータにさせる？）
–  今回もGrad-CAMやVisual Reasoning（下図）など

•  アプリケーション（社会実装）
–  技術と同時に，実装に使うところまで試してみる
–  Deploy or Die!

•  成熟したアルゴリズムをベースにして研究する
–  研究分野ではないが重要な考え⽅
–  組み合わせるでも良いし，⾼精度なモデルを正解値として
もよい
–  Keywords: Object Detection, Semantic Segmentation,
Instance Segmentation, Video Recognition etc...

•  昔に学ぼう！
–  ⾼度になったアルゴリズムを⽤いて以前の問題を解決する
ものを考案
–  低次元な局所特徴
•  Learning Compact Geometric Features: 32次元（約10分の1の
サイズ）で従来よりも⾼精度な3次元点群マッチングを実現

•  データを集めよう！
–  ⾃分の問題設定を作って研究する
–  データも同時に集めて（できれば）公開する

今後の⽅針
-  では，どうすればよいか？

今後の⽅針（1/3）
•  今こそ「サイエンス」をしよう！
–  今の技術がこうだからこう研究するではない
–  より抽象度の⾼い，普遍的な，科学的な知⾒に基づいて議
論する
•  「⼈間の視覚の〜に関する仕組みに学んで〜の研究をする」

今後の⽅針（2/3）
•  研究のグランドデザイン（普遍的に重要）
–  ICCV 2017 Best Paper (Marr Prize)より
–  Kaimingさんや研究グループ員は初めからグランドデザイ
ン（⼤きな地図）がを共有していて，⾃分がいる場所/進む
べき⽅向が直感的に分かっている（ように⾒える）
–  グランドデザイン例：位置・領域・意味を同時に推定
•  SPP [TPAMI15]：任意の領域で特徴抽出
•  Faster R-CNN [NIPS15]：候補領域+物体識別をEnd-to-End処理
•  Residual Learning [CVPR16]：構造をより深く，特徴を先鋭化
•  Mask R-CNN [ICCV17]：グランドデザインを達成
–  さらに，Sub-ThemeやSub-IssueをMSR/FAIRの優秀なイ
ンターン⽣と研究
BestPaper!
BestPaper!

今後の⽅針？（3/3）
•  今こそ結集して研究しよう！
–  集合知を発揮した研究
–  同じ研究室のメンバーで継続的に研究するではなく，多様
性の中で研究を開始

以下、まとめ論⽂集
-  ICCV2017論⽂のまとめが93本あります
-  テンプレートが定まっていないものもありますが
ご了承ください

Justin Johnson, Bharath Hariharan, Laurens van der Maaten, Judy
Hoﬀman, Li Fei-Fei, C. Lawrence Zitnick, Ross Girshick, “Inferring and
Executing Programs for Visual Reasonin”, in ICCV, 2017. (Oral)
【1】
Keywords: Visual Reasoning, Visual Question Answering (VQA)
新規性・差分
概要
・⼈間のような解釈をコンピュータに⾏わせようとする試み。本研究
では質問回答（VQA）を題材としており、機械が⾃然⾔語から直接
ニューラルネットにより抽象化・回答していたところを、機械に解釈
しやすいプログラム構造に翻訳（PG; Program Generator）してから
画像を理解して質問に回答する構造を提案（EE; Execution Engine）
した。PGは⼆段階のLSTMにより構築され、⼊⼒の⾃然⾔語から構造
化されたプログラム⾔語に変換、EEはResNetベースのCNNにより抽象
化された画像特徴量や構造化されたプログラム⾔語から適切な回答を
準備する。
・機械では扱いづらかった⾃然⾔語を、より解釈性の⾼いプログラム⾔語に構造化してから画像を理解するというモデルを考案し、従来モ
デルから⼤きく精度向上させただけでなく、Human-levelの精度まで超えることを達成。
・Toy-Problemでの実験は収束に向かい、今後はリアルな空間においてVisual Reasoningが⾏われる？
Links
論⽂: https://arxiv.org/pdf/1705.03633.pdf
プロジェクト（コードあり）:
http://cs.stanford.edu/people/jcjohns/iep/
（左図）のような
How many~?, Is
there~?等，⼈間に
とっての⾃然⾔語を
機械に理解しやすい
形式に⼀度変換す
る。（下図のPG）

Shenlong Wang, Min Bai , “TorontoCity: Seeing the World with a Million
Eyes”, in ICCV, 2017. (Spotlight)
【2】
Keywords: Large-Scale Datase (taken by Drone, LIDAR, Stereo cameras, ... )
新規性・差分
概要
・ TorontoCityという⼤規模なベンチマークを提案しました。
・ TorontoCityはToronto地域の合計712.5平⽅kmの⾯積，⻑さ8439kmの道
路，およそ400, 000 のビルで合成されている⼤規模なデータセットです。
TorontoCityのデータは主に⾶⾏機，ドローン，TorontoCityの⾞から撮影した
データで，アノテーションの精度も⾮常に⾼いです。
・ TorontoCityベンチマークを⽤いて，いくつかの新規のタスクが解決可能に
なる（例えば：ビルの⾼さの推定，道路セグメンテーションなど）
・⼤規模でかつアノテーション精度が⾼いデータセットの提案。
・このベンチマックを⽤いることで，様々な視点から TorontoCityを観測
することが可能になる。
・いくつか新規のタスクの提案：ビルの⾼さの推定，ビルのインスタンス
セグメンテーション，ビルのcontour抽出など。
Links
　　　データセットの例
データセットの例
従来データセットとの⽐較

Dotan Kaufman, Gil Levi, Tal Hassner, and Lior Wolf, “Temporal
Tessellation: A Uniﬁed Approach for Video Analysis”, in ICCV, 2017.
【3】
Keywords: Video Understanding, Captioning, Summarization, Action Detection, Sound Prediction
新規性・差分
概要
・動画理解に向けた新しい⼿法を提案．Video Captioning,
Summarization, Action Detectionなど様々なタスクに適⽤可能な単⼀
のフレームワーク．最近の画像間での画素単位の対応付け⼿法に基づい
て新規⼿法を提案．動画を1次元の情報として捉えて，Reference
VideoとTest Videoのフレームごとの対応付けを⾏い，Reference
Videoが持つSemantic Label（タスクごとに異なる）を転移させる．時
間的な⼀貫性を考慮するために，毎フレームで最近傍を取るのではなく
ViterbiアルゴリズムやLSTMを⽤いて⼀貫性のあるラベルを転移させて
いる．様々なタスクでstate-of-the-artを超える精度を達成．
・様々な動画タスクに適⽤可能な単⼀のフレームワークを提案
・Video Captioning, Summarization, Temporal Action
Detectionでstate-of-the-artを超える精度を達成
Links
Github: https://github.com/dot27/temporal-tessellation
Action Detection
on THUMOSʼ14

Mohammad Sadegh Aliakbarian, Fatemeh Sadat Saleh, Mathieu
Salzmann, Basura Fernando, Lars Petersson, Lars Andersson,
“Encouraging LSTMs to Anticipate Actions Very Early”, in ICCV, 2017.
【4】
Keywords: Action Anticipation, LSTM, Attention
新規性・差分
概要
・コンテキスト（⼤域特徴）やアクション（局所特徴）を考
慮した⾏動予測に関する研究。右図のようなフロー図で処理
を⾏い、特徴として2段階のLSTMを構成していることであ
る。1st-LSTMではコンテキスト特徴をエンコーディング、
2nd-LSTMでは1st-LSTMの出⼒やCNNにより抽象化された
アクション特徴を⼊⼒として総合的な状況を判断して予測を
実⾏する。損失関数（１）はFalse Positive/Negativeが最
⼩になるように設計されている。
・コンテキスト/アクション、2段階LSTM、損失関数の提
案により、従来研究よりも相対的に22.0%@JHMDB-21、
14.0%@UT-Interaction、49.9%@UCF-101の向上が⾒
られた。特に、UCF101においては最初の1%のシーケンス
で80%の予測（早期認識？）ができるなど顕著な精度を実
現した。
Links
論⽂ :
https://arxiv.org/pdf/
1703.07023.pdf

Jifeng Dai , Haozhi Qi , “Deformable Convolutional Networks ”, in ICCV,
2017. (Oral)
Keywords: deformable convolution, deformable RoI pooling
新規性・差分
概要
・CNNのconvolution カーネルの形状を学習ベースで可変
にする⼿法の提案。固定形状であったカーネル形状を⼊⼒
画像の画素位置に適した形状にする。特徴マップからまず
通常の畳み込み層によって画素位置のオフセットを算出
し、オフセットを考慮した画素位置に対してバイリニア補
完によって画素値を決定したのち、それらの重み付けを出
⼒する。同様にRoI poolingのグリッド領域も可変とする
deformable RoI poolingも提案。
・semantic segmentationと物体検出においていずれの
モデルを⽤いた場合でもdeformable conv を⽤いた⽅が
精度が⾼かった。
・deformable convのreceptive ﬁeldを可視化すると、物
体ごとに定性的に妥当な領域になっていることが確認でき
た。(図参照)
Links
論⽂ https://arxiv.org/pdf/1703.06211.pdf
プロジェクト
https://github.com/msracver/Deformable-ConvNets
【5】

J. Martinez, R. Hossain, J. Romero, and J. J. Little, “A simple yet eﬀective
baseline for 3d human pose estimation”, in ICCV, 2017.
【6】
Keywords: 3d pose estimation, 2d to 3d
・2Dの姿勢から3Dの姿勢に変換する⼿法の提案。
・ネットワークはsimple, deep, multilayerに構成されてお
り、2D座標を⼊⼒すると3D座標が出⼒される。⼊⼒が座標の
みなので、学習コストなどが⼤幅に削減できている。
・学習にはhuman3.6m, HumanEva, mpii pose datasetを
⽤いている。
概要
Links
論⽂ : https://arxiv.org/pdf/1705.03098.pdf
コード：https://github.com/djangogo/3d-pose-baseline
動画：
https://www.youtube.com/watch?
v=Hmi3Pd9x1BE&feature=youtu.be
新規性・差分
・⾮常にシンプルながらも⾼精度な結果を出している。

David Novotny, Diane Larlus, Andrea Vedaldi, “Learning 3D Object
Categories by Looking Around Them”, in ICCV, 2017. (Oral)
【7】
Keywords: 3D object categorization, 3D shape completion, Training data from videos,
新規性・差分
概要
・2DRGB物体画像から,視点,デプス,物体のコンプリート
な3次元点群を同時に予測するネットワークを提案した。
・異なるビデオから撮影した同じ物体をロバストでアライ
メントする視点分解ネットワークと⽋損な物体モデルから
コンプリートな3次元形状を推定するネットワークの2つを
ジョイントで構築した。
・視点推定，デプス推定，ポイントクラウド推定の3つの
タスクともstate-of-artな結果が得られている。
・3次元物体の分類の学習データとして従
来は⼿動でアノテーションや合成データな
どを⽤いる⽅が多い。ビデオから学習する
ことの有⽤性を⽰した。
・物体の視点のpertubationを利⽤し，ト
レーンデータ拡張を⾏う。従来⼿法と⽐べ
て、よりリアルなデータを得られている。
Links
論⽂: http://arxiv.org/abs/1705.03951
結果
ネットワーク
概要図

Jean Lahoud, B. Ghanem, “2D-Driven 3D Object Detection in RGB-D
Images”, in ICCV, 2017.
【8】
Keywords:3D object detection, Utilize 2D object detection to reduce search space
新規性・差分
概要
・1枚のRGB-D画像から物体の3Dバウン
ディングボクスを⽣成する⼿法を提案。
・Faster R-CNNを利⽤し2Dの画像か
ら，物体を検出，3DデータをMFE⼿法に
よりオリエンテーションを推定，また，
物体間の関係からバウンディングボクス
の最適化を⾏う。SUN RGB-Dデータセッ
トで⾼い精度と最も速い処理スピードを
達している。

・処理スピード（4.1sec per image）と
⾼い精度を得られていて，2D検出を3D
データに利⽤することの有⽤性を⽰した。
・３D物体オリエンテーション推定する
際，予めの物体のCADモデルが不要。
Links
論⽂:
https://ivul.kaust.edu.sa/Documents/
Publications/2017/2D-Driven%203D
%20Object%20Detection%20in%20RGB-D
%20Images.pdf
プロジェクト:
https://ivul.kaust.edu.sa/Pages/pub-3d-
detect.aspx
提案⼿法のプロセス
結果

Kuo-Hao Zeng, William B. Shen, De-An Huang, Min Sun, Juan Carlos
Niebles, “Visual Forecasting by Imitating Dynamics in Natural
Sequences”, in ICCV, 2017. (Spotlight)
【9】
Keywords: Visual Forecasting, Prediction
新規性・差分
概要
・⻑時間/短時間フレームの予測、未来の画像⽣成の問題を同時に
解決する予測⽅法を提案した。⼿法としてはRaw Imageの⼊⼒に
よるInverse Reinforcement Learning (IRL)を扱う。学習では指
針として「模倣学習」を⾏う。ある動作に類似したシーケンスを観
測して、その流れや分散を記憶する。強化学習とは異なり、エキス
パートの⾏動を観測することでコスト関数を復元（強化学習ではコ
スト関数を与える）することから逆強化学習と呼ばれる。
・ドメインに関する事前知識やハンドクラフト特徴が不要で、普遍的な予
測を実現した
・普遍的な予測では、⻑時間の⽂脈予測/短時間の⾏動予測、先の時間の画
像⽣成問題を同時に解決するフレームワークを提案している。
Links
論⽂:
https://arxiv.org/pdf/1708.05827.pdf
プロジェクト(to appear) :
http://ai.stanford.edu/~khzeng/projects/
vﬁd/
著者: https://kuohaozeng.github.io/
（下図）のように⻑時間フレームを
観測した上での予測、短時間の予
測、次フレームの画像⽣成を普遍的
に解く問題を取り扱う。

Chen-Yu Lee, V. Badrinarayanan, T. Malisiewicz, A. Rabinnovich,
“RoomNet: End-to-End Room Layout Estimation”, in ICCV, 2017.
【10】
Keywords: Room layout estimation, End-to-End network
新規性・差分
概要
・1枚部屋のRGB画像から部屋のレイアウトを出⼒
するEnd-to-Endトレーン可能なネットワーク提案。
・11種類の部屋レイアウト分布を定義し，それぞれ
の種類は異なるキーポイントを持っている。提案⼿
法は右の図のネットワークを⽤いて同時に⼊⼒画像
の部屋種類とキーポイントを検出。HedauとLSUN
データセットで性能が落ちない同時に，従来⼿法よ
り200＊から600*のスピードを達している
・従来⼿法がﬂoor,ceiling,wallのセマンティックセ
グメンテーションを画像から，その結果により部屋
レイアウト推定を最適化問題と取り扱う。提案⼿法
はEnd-to-Endネットワークでより⾼い精度と処理ス
ピードを達している。
・Recurrent構造を取り⼊れてキーポイントの検出
をリファインしパラメータ量をほぼ同様の状態で精
度を上げた。
Links
プロジェクト :
https://github.com/FengyangZhang/RoomNet_Caﬀe
RoomNetのネットワーク構造

Jacob Walker, Kenneth Marino, Abhinav Gupta, Martial Hebert, “The Pose
Knows: Video Forecasting by Generating Pose Futures”, in ICCV, 2017.
【11】
Keywords: GAN, VAE, Pose Generation
新規性・差分
概要
・画像⽣成の枠組みを⽤いて、⼈物姿勢の予測結果を⽣成するという⼿法を提案する。右図が
姿勢を予測する枠組みであり、(a)は⼊⼒のRGB画像、(b)は任意の⼿法により推定された⼈物
姿勢、(c)は予測された⼈物姿勢、(d)は予測された⼈物姿勢を基にして⽣成された未来のビデ
オである。本論⽂ではVAEやGANを⽤いた⽣成モデルを構成する。右下の図は全体のフローを
⽰している。基本的には過去の特徴記述（Past Encoder; CNN (AlexNet) + LSTM）、未来
の⼈物姿勢予測（Future Decoder; Pose-VAE）、最後に動画⽣成（Video Generator;
Pose-GAN）という形式になっている。
・画像全体よりも限られた特徴空間である「姿勢の予測」というもの
をベースにして動画⽣成を⾏うとより鮮明なモーションを推定するこ
とに成功する。
・従来法のVideoGAN[Vondrick+, NIPS16]よりもリアルな動画⽣成
が実現している。詳細はビデオ（
http://www.cs.cmu.edu/%7Ejcwalker/POS/selected1.html ）を
参照。
Links
http://www.cs.cmu.edu/~jcwalker/POS/POS.html
GAN-Zoo :
https://github.com/hindupuravinash/the-gan-zoo

Xin LI, Z. Jie, W. Wang, C. Liu, J. Yang, “FoveaNet: Perspective-Aware
Urban Scene Parsing”, in ICCV, 2017. (Oral)
【12】
Keywords: Urban Scene Parsing, Prespection estimation
新規性・差分
概要
・透視awaredな都市シーンセマンティックセグメン
テーション⼿法（右図）を提案した。
・FCNに近似してるネットワークを⽤いてUrban画像か
らピクセルごとに透視情報を推定する。推定により⼩さ
いオブジェクトが⼤量存在するregionを検出し，画像と
共にこのregionをより精密で解析する。また，透視情報
をprior制約とし，⾼い信頼度で同じ物体と判定された
物体領域だけをCRFsにより処理する。CamVidと
Cityspacesデータセットで⾼精度。

・透視情報をネットワーク全体で取り⼊れてい
るので，従来⼿法の”broken-down”と⼩さい物
体のエッジ崩壊の問題に強い。
・従来の⼿法と⽐べて，ベンチマックデータ
セットで最も良い精度を達成した。
Links
ネットワーク構造(上図：全体，右中図：透視推定)
結果（上-⼊⼒，中-
FCN，下-Ours）

Nicholas Rhinehart, Kris M. Kitani, “First-Person Activity Forecasting with
Online Inverse Reinforcement Learning”, in ICCV, 2017. (Oral)
【13】
Keywords: First-Person View, Activity Forecasting
新規性・差分
概要
・⼀⼈称カメラからの⼈物⾏動予測を実⾏するためのオンラインでの逆強化学習（Online
Inverse Reinforcement Learning (IRL)）を提案する。従来の逆強化学習は⾏動を観測して
報酬（予測対象）を学習するに⽌まっていたが、本論⽂で提案のOnline IRLはストリーミン
グされる動画から状態やその遷移、報酬、⽬的地までを推定可能である。
定義される状態は3次元位置(x,y,z)や把持している物体O、過去に⼈物が位置していたシーン
Hを含む（sは s = [x, y, z, o_1, …, o_|o|, h1, …, h_|K|] で⽰される）。そこにActions
a（やTransition Function T: (s, a) -> sʼ）を含めて報酬関数 R(s, a; Θ) が定義される。状
態や⾏動が観測されていくと次の状態遷移、報酬、⽬的地を予測する。
・⼀⼈称カメラにおいて初めてオンライン
で逆強化学習を⾏い、状態遷移、報酬、⽬
的地までを推定した。
・右の表はゴールの予測精度、右下の表は
ゴール発⾒と⾏動認識の結果である。
Links
論⽂
1612.07796.pdf
プロジェクト
http://www.cs.cmu.edu/
~nrhineha/darko.html
ビデオ
https://www.youtube.com/
watch?v=rvVoW3iuq-s
上の図はVisualSLAMにより観測された空間や
⼀⼈称カメラからの映像である。把持してい
る物体や常時観測する⼈物⾏動により、予測
対象を当てる。

Congqi Cao, Yifan Zhang, Yi Wu, Hanqing Lu, Jian Cheng, “Egocentric
Gesture Recognition Using Recurrent 3D Convolutional Neural Networks
with Spatiotemporal Transformer Modules”, in ICCV, 2017. (Spotlight)
【14】
Keywords: 3D Convolution, Egocentric Video, Gesture Recognition
新規性・差分
概要
・⼀⼈称ビジョンのジェスチャー認識において、Recurrent 3D Convolutional Networks
を⽤いて精度向上に取り組み、End-to-Endの学習を成功させた。特に、Spatio-Temporal
Transformer Module (STTM)により時空間的に隣接する3次元の特徴マップに対して変換
を⾏い、3次元のhomographyを考慮して特徴間の類似性を強める。⼿法を検証するため、
既存データのみならずジェスチャー認識に関するDBを新規に提案した。同データには83
ジェスチャー、24,000枚のRGB-D情報、50サブジェクト、6シーンを撮影した、という特
徴がある。
・従来のSpatial Transformer [11]を3次
元に拡張して、時系列変換を⾏うSTTMを
提案
・⼀⼈称ビジョンに現れるHomographyの
変化に対応
・新規にジェスチャー認識を⾏うデータ
セットを考案した
Links
論⽂:
http://www.nlpr.ia.ac.cn/iva/yfzhang/
datasets/iccv2017_cqcao.pdf 表は提案データセットでの実験結果。Homographyの
考慮や3DConvを再帰的ネットで特徴強化を⾏った結
果、SoTAな精度で認識した。

Hongyuan Zhu, Romain Vial, and Shijian Lu, “TORNADO: A Spatio-
Temporal Convolutional Regression Network for Video Action Proposal”,
in ICCV, 2017.
【15】
Keywords: Action Proposal, Convolutional Regression Network, Convolutional LSTM
新規性・差分
概要
・動画像中の⾏動候補領域であるAction Proposalを計算するため
の新たな⼿法を提案．この論⽂のProposalは時空間のTube上のも
の．従来⼿法では各フレームで⼈検出やActionness Scoreを計算
し，それらを接続していく⼿法が多い．このような⼿法では，時間
的な情報を⼗分に捉えられていないことが問題となる．この研究で
は，Convolutional LSTMを⽤いるT-CRNと，フレームごとの
Convolutionを⾏うS-CRNを⽤いてそれぞれから各フレームの
Bounding Boxを算出する．これらを統合し，Dynamic
Programmingによるフレーム間の接続を⾏うことで，時空間の
Action Proposalを計算する．
・S-CRNとT-CRNにより時空間の情報を扱い，それらのEnd-to-
Endでの学習を実現
Links
論⽂: http://romainvial.xyz/pubs/ICCV2017.pdf

Vicky Kalogeiton, Philippe Weinzaepfel, Vittorio Ferrari, Cordelia Schmid,
“Action Tubelet Detector for Spatio-Temporal Action Localization”, in ICCV,
2017.
【16】
Keywords: Action Localization, Tubelet
新規性・差分概要
・動画像中の⼈物⾏動を時空間で位置推定するための新たな⼿法を提
案．従来⼿法では，フレーム単位での検出とフレーム間での結合を⾏う
⼿法が多く，時間情報が⽋落していた．この研究では，複数フレームの
⼊⼒を結合し，各フレームのBounding Boxを推定する⼿法を提案．⼿
法は，物体検出⼿法であるSSDをベースとしている．各フレームに対し
て，重みを共有するCNNを適⽤していく．そして，各フレームの特徴
マップを結合して，anchor cuboidをベースにTubelet (各フレームの
Bounding Box) を推定する．これにより時空間の⾏動検出を実現．
・Anchor Cuboidをベースとして複数フレームのBounding
Boxを推定する⼿法を提案
Links
論⽂:
http://calvin.inf.ed.ac.uk/wp-content/uploads/Publications/vicky17iccv.pdf
プロジェクト: http://thoth.inrialpes.fr/src/ACTdetector/

Vicky Kalogeiton, Philippe Weinzaepfel, Vittorio Ferrari, Cordelia Schmid,
“Action Tubelet Detector for Spatio-Temporal Action Localization”, in
ICCV,2017.
【17】
Keywords: Action Localization, Tubelet
・動画像中の⼈物⾏動を時空間で位置推定するための新たな⼿法を提
案．従来⼿法では，フレーム単位での検出とフレーム間での結合を⾏う
⼿法が多く，時間情報が⽋落していた．この研究では，隣接する2フ
レームを⼊⼒として，その2フレームでのBounding Box (Micro-Tube)
を出⼒する⼿法を提案．⼿法はFaster R-CNNのように，RPNにより
Region Proposalを出⼒してからそのスコアを推定する形．各フレーム
でできたMicro-Tubeを結合することで，動画像中の⾏動を検出する．
・2フレームを⼊⼒としてMicro-Tubeを⽣成する新たなネッ
トワークの枠組みを提案
・フレームごとではなく，Micro-Tubeを結合していくことで
Action Tubeを⽣成
Links

Jan Hendrik Metzen, Mummadi Chaithanya Kumar, “Universal Adversarial
Perturbations Against Semantic Image Segmentation”, in ICCV, 2017.
【18】
Keywords: Universal adversarial pertubations, semantic segmentation
新規性・差分
概要
・セマンティックセグメンテーションの結果を間違わせる
pertubationsの存在を指摘し，⽣成⼿法を提案した。
・任意の⼊⼒画像が与えられた際，ほぼ同じセマンティッ
クセグメンテーションの出⼒をさせるpertubationsの存在
を指摘した。また，ターゲットクラスだけを除かれ，他の
クラスに影響をほぼ与えないpertubationsの存在を指摘し
た。
・Cityscapesデータセットに対し，提案⼿法はstatic
targetとdynamic targetの２つのタスクに有効的に
FCN-8Sネットワークをfoolできた。
・従来のuniversal adversarial perturbations提案は画像
分類を対象としている。提案⼿法の対象はセマンティック
セグメンテーション。
Links
定性的結果（列1,2:static target、列3,4:dynamic target）
定量的結果（Cityscapesデータセットをfoolする際の成功率）

Shanghang Zhangyz, Guanhang Wuy, Jo˜ao P. Costeiraz, Jos´e M. F.
Moura, “FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle
Counting in City Cameras”, in ICCV, 2017.
【19】
Keywords:FCN, LSTM, Vehicle Counting
新規性・差分
概要
・低解像度な都市カメラを⽤いて⾃動⾞の交通量を計測す
る試み。個々の⾞両を認識して交通量をカウントするので
はなく、初めにFCNを⽤いてピクセルレベルの⾞の密度
マップを算出した後、LSTMにて数をカウントするネット
ワークを構築した。
TRANCOSデータセットとUCSDデータセットにて従来⼿
法と⽐較し、効果を確認。(右表参照)
・物体の密度マップを算出したのち、直接数をカウントす
る⼿法が従来提案されていたが、その⼿法だとバスのよう
な⼤きな⾞両が存在する場合に誤差が⼤きくなる。FCNと
LSTMを組み合わせて物体の数をカウントする⼿法を初め
て提案した。
Links
ネットワーク
密度マップ
ベンチマーク

Marc Khoury, Qian-Yi Zhou, Vladlen Koltun, “Learning Compact
Geometric Features”, in ICCV, 2017.
【20】
Keywords: Geometric Features
新規性・差分
概要
・3次元の点群のマッチングを実現するためのCompact Geometric Features
(CCF)を提案する。CCFはデータドリブンな学習をdeep networksにて⾏い、⾼
次元なヒストグラムからより低次元のユークリッド空間に射影する。右図に⽰す
ようにCCFは他の特徴マッチング（e.g. SHOT, PFH）より低次元（横軸
Dimensionality）でありかつ⾼精度（縦軸Precision(%)）な特徴マッチングで
ある。CCFの特徴として、球状に近傍点を探索してヒストグラムを記述する点に
あり、Triplet Embeddingによりヒストグラムを低次元に圧縮する。
・コンパクトな特徴（12次元/32次元）で⾼精度な3次元の点群マッチングを
実現するCompact Geometri Features (CCF)を提案した。
・図や表はベンチマークによる評価である。右図はlaser scan data test set
やSceneNN test setにおけるPrecisionのカーブ、下表はRedwood
benchmarkにおけるRecall/Precisionである。
Links
論⽂:
https://
people.eecs.berkeley.edu/
~khoury/papers/learning-
geometric-features.pdf

Kaiming He, Georgia Gkioxari, Piotr Dollar, Ross Girshick, “Mask R-CNN”,
in ICCV, 2017. (Oral)
【21】
Keywords: Instance segmentation, RoIAlign, ResNeXt ， FCN
新規性・差分
概要
・instance segmentationフレームワークの提案です。
・Faster R-CNNのオブジェクトバウンディングボクス検出のbranchに，
parallelでオブジェクトのセグメンテーションマスクを検出するbranchを追
加する。従来のRoI regressionのRoI Poolのharsh quantizationを除き，抽
出特徴と⼊⼒画像をalignするRoIAlignを⽤いる。RoIAlignから抽出した特徴
をFCNによりセグメンテーションマスクを⽣成する。また，フレームワーク
全体の特徴抽出の際，ResNet-101-FCNを⽤いる。
・COCO 2016 challengeでバウンディングボクス検出，オブジェクト検出，
ひとキーポイント検出の３つのタスクともトップだった。

・5fpsのスピードでstate-of-artなinstance segmentationの精度を⽰した。
・精度向上するための様々な取り組み：１．ResNet-101-FCNで特徴抽出；
２．RoIAlignで特徴と⼊⼒画像を精度よくalignする。３．物体のバウンディ
ングボクス検出及び分類とマスク検出のbranchをparrelelで⾏う。
Links
論⽂:
https://arxiv.org/
pdf/1703.06870.pdf
Mask R-CNNのフレームワーク（上図：全体，右中図：head）
instance segmentationの結果（左：定量，右：定性）

S. Palazzo, C. Spampinato, I. Kavasidis, D. Giordano, “Generative
Adversarial Networks Conditioned by Brain Signals”, in ICCV, 2017.
【22】
Keywords: EEG(electroencephalograph), GAN, Condition GANs
新規性・差分
概要
・脳波を条件でGANにより画像⽣成の研究です。
・脳波（EEG）が視覚関連の情報をencodeしている従来の研究がある。また，
脳波（EEG）class discriminativeという特徴がある。この研究は，ImageNet
の40クラスを対象に，6名の受験者に40クラス＊50枚の写真を⾒せ，写真をみ
るときの脳波を記録する。そして，記録した脳波の情報をLSTMなどにより時系
列解析し，encodeする。encodeされた脳波の情報を条件とし，condition GAN
により，画像と脳波を関連づける。訓練済みのネットワークにより，脳波から
対応している画像の⽣成ができる。
・脳波からリアルな画像を⽣成できた。⼜，内部バリエーションが多いクラス
の⽣成結果のリアル性が相対的に低い。
・従来の脳波と視覚の研究は分類タスクの⽅が多
い，この研究はcondition GANで脳波から画像を⽣
成する。
・従来の脳波信号の処理はfull EEGから特徴抽出す
る⽅が多い。この研究はLSTMによりEEGの時系列
特徴を抽出する。
・脳波の情報から画像⽣成することで，⼈の脳波を
解析することの可能性を⽰した。
Links
論⽂:
http://crcv.ucf.edu/papers/iccv17/
egpaper_for_review.pdf
フレームワーク（上図：全般，右下：脳波(EEG)のencoder）
脳波から⽣成できた画像例

Relja Arandjelovic, Andrew Zisserman , “Look, Listen and Learn”,in ICCV,
2017.
【23】
Keywords: Audio-Visual Correspondence
概要
・ラベルの無いビデオデータセット(Frickr-SoundNetや
Kinetics-Sounds)を⽤いてオーディオとビデオの対応関係
をゼロからトレーニングすることで、何を学べるのかとい
うことを検討している。(AVC training)
・この分類タスクで学習したL3-Netにおいて、⾳楽分類
ではHunanレベルに近づき、教師なしのImageNet分類に
関して最先端のアプローチと同等の性能を発揮している。
・注⼒領域などを可視化した分析においては、楽器の詳細
な種類など、細かい区別を⾃動的に学習できていることを
⾔及している。
・教師なし学習において⾳声とビデオの対応関係を学習す
るAVC-task
・L3-Net
・ここでは⾳声特徴を周波数スペクトルの画像特徴として
取り扱っている
Links
論⽂: https://arxiv.org/abs/1705.08168
L3-Net 出⼒は
・対応している(Positive)
・対応していない(Negative)の２クラス
新規性・差分

Stephan R. Richter, Zeeshan Hayder, Vladlen Koltun, “Playing for
benchmarks”, in ICCV, 2017. (Spotlight)
【24】
Keywords: Large scale high-resolution scene dataset
新規性・差分
概要
・様々なvisual perceptionに⽤いられる⼤規模(250k)な
⾼解像度のリアル性が⾼い合成ビデオデータセットの提
案。
・ビデオフレームごとに5種類(右図)のアノテーション
データを定義している。データはdriving, riding及び
walkingする際のビデオフレームで，合計距離は184キ
ロ，多様な背景が含めている。時系列データを取り扱う
ネットワークや将来的のマルチタスクの研究に⽤いられ
る。
・Grand Theft Auto Vという都市と周囲環境をシミュ
レーションするゲームからデータ収集した。また，アノ
テーションデータ⽣成に関連するデータだけをキャプ
チャーするmiddlewareを開発し，ビデオレートで精密な
データの収集する。
・他の合成データセットと⽐べstate-of-artなリアル性
・low-levelからhigh-levelのマルチタスクに⽤いられる5
種類のアノテーションを定義
・新たな⾼レートデータ収集とシミュレーションのソー
スコードをaccessしないアノテーション
⽅法の提案。
Links
論⽂:
http://vladlen.info/papers/playing-for-
benchmarks.pdf
プロジェクト:
www.playing-for-benchmarks.org
データセットの例（時計回り順：⼊⼒，semantic segmentation, instance
segmentation, 3D scene layout, visual odometry, optical ﬂow ）
異なるデータセット分布の⽐較（右図）：
提案データセットVIPERはよりクラスごとの実例
が分散
提案データセットで2種類のセマンティック
セグメンテーション
モデルで性能評価（下図）：

Xiaojuan Qi, Renjie Liao, Jiaya Jia, Sanja Fidler, Raquel Urtasun, “3D
Graph Neural Networks for RGBD Semantic Segmentation”, in ICCV,
2017. (Oral)
【25】
Keywords: RGBD semantic segmentation, Graph Neural Network
新規性・差分
概要
・3D graph neural networkを⽤いたRGBDデータのsemantic
segmentation⼿法を提案した。
・3D点群から得られる幾何情報と2Dのアピアランスの情報をジョイ
ントし，精度がstate-of-artなセマンティックセグメンテーションを
⾏う。
・⼊⼒されたRGB-D画像に対し，3D点群からポイントがノード，ポ
イントの3D空間上の64近傍のポイントとの間エッジでつなぐgraphを
作る。また，⼊⼒されたRGB画像に対し，CNNによりピクセルごとに
特徴を計算。計算したピクセルごとの特徴を初期値に，graph +
RNN(or LSTM)により予め設定したタイムステップＴまでピクセルご
との特徴を更新する。最後に，更新した後の特徴と初期の特徴を連結
し(更新した後は3D情報を含めた特徴表⽰，初期だけは2Dアピアラン
ス)CNN(論⽂ではMLP+Softmaxと)⽤いてセマンティックセグメン
テーションを⾏う。
・state-of-artなセマンティックセグメンテーション精度。
・Graph Neural Networkにより，3D幾何情報と2Dアピアランス
情報をジョイントする。
Links
論⽂:
https://www.cs.toronto.edu/~urtasun/publications/
qi_etal_iccv17.pdf
フレームワーク
結果（左図：SUN RGB-Dでの定量的⽐較，右図：定性的結果）

Alex Kendall, Hayk Martirosyan, Saumitro Dasgupta, Peter Henry, “End-
to-End Learning of Geometry and Context for Deep Stereo Regression”, in
ICCV, 2017. (Spotlight)
【26】
Keywords: Stereo vision, Disparity regression
新規性・差分
概要
・End-to-Endなステレオ画像ペアから，視差
（disparity）画像を回帰するフレームワークの提
案。
・提案フレームワークはまずCNNを⽤いてステレ
オ画像ペアからそれぞれの特徴を学習する。次
に，ステレオ幾何の知識に基づき視差のlevelごと
ステレオ画像の対応ペアの特徴を連結し
height*weight*disparityのcost volumeを作る。
次に，cost volumeを3D encorder decorderで
3D representationの学習と正規化を⾏う。最後
に，soft argminを⽤いてcost volumeから視差画
像を回帰する。
・KITTIでstate-of-artな精度とスピードを⽰し
た。
・End-to-Endで，pre-processingとregularization必要なし。
・テクスチャーなし，強い反射の場合もステレオ画像ペアの対応点を正し
く求めるため，従来研究はプーリングや正規化によて，誤差を抑える。こ
ういった操作により,細かいところの精度が下がる。提案⼿法はcnnを⽤い
て得られるglobal semantic contextを利⽤し，local情報が⽋損しても正し
くdisparityを推定する。
Links
提案フレームワーク（GC-Net）
結果（中図：
KITTI2015での結
果，
下図：⼊⼒，出⼒，
誤差マップ）

Xiaoguang Han, Zhen Li, Haibin Huang, “High-Resolution Shape
Completion Using Deep Neural Networks for Global Structure and Local
Geometry Inference”, in ICCV, 2017. (Spotlight)
【27】
Keywords: 3D Shape completion, Joint global and local geometry structure, LSTM-CF, 3D FCN
新規性・差分
概要
・⽋損な3Dshapeから形状をcompleteするEnd-to-End networkの提案。global shape推定とlocal shape reﬁneの2つsubネットワークで構
成される。
・global shape推定: ⼊⼒shapeは256*256*256のvolumetric distance ﬁeld.(表⾯のボクセルを1で表⽰，innnerボクセルを0で表⽰)。⼊⼒
されたshapeを32*32*32にダウンサンプルし，3DCNNにより畳み込む。また，ダウンサンプルした後，情報量が失うため，⼊⼒3D shapeを
6視点から128*128の2D画像に投影する。6枚の2D画像をLSTM-CFにより32*32*32の3D特徴を抽出，3DCNNにより畳み込んだ特徴と連結
し，32*32*32のglobal shapeを⽣成する。
・local shape completion:⼊⼒256*256*256のshapeを32*32*32サイズのパーツごとに，形状補完する。3Dencoderによりパーツを
4*4*4サイズにencodeし，globalも4*4*4encodeにし，2つの特徴を連結する。次に，
2層のFCを通し，次に，もう⼀回global特徴と連結した後，
3Ddecoderにより32*32*32にdecodeし，形状を補完。
・従来，計算時間とメモリーのため，3D CNNsは最⼤
32*32*32までの⼊⼒しか処理できない。このため，
3D形状補完の精度が制限される。提案⼿法はglobal 特
徴抽出し，それを⾒ながら⼊⼒shapeをlocalパーツに分
割し，パーツごとにより精密で形状を補完。提案⼿法は
256*256*256の⼊⼒shapeをstate-of-artな精度で補
完できる。
・novelなLSTM-CF+3DFCNによりglobal特徴抽出と
3Dencoder-decoderでlocal形状補完
⼿法を提案した。
Links
論⽂:
https://people.cs.umass.edu/~kalo/
papers/ShapePatchNet/
shape_patchnet_iccv.pdf
上図：提案フレームワーク，下図：定量的結果（完成度/ground truth
との正規化距離）

Roman Klokov, Victor Lempitsky, “Escape from Cells: Deep Kd-Networks
for the recognition of 3D point cloud models”, in ICCV, 2017. (Spotlight)
【28】
Keywords: Kd-Network, 3D point cloud, Multi-3D vision tasks(object recognition, shape retrieval, part segmentation)
新規性・差分
概要
・3D認識のタスクに⽤いられる新たなKd-tree 構造のディープ
ラーニング構造ーKd-Networksを提案した。
・ポイントクラウドを再帰的に2つのパーツに分割することにより
Kd-treeのようなKd-Network構造にする。leafノードはポイント
で，non-leafノードは学習可能な変換を表⽰。異なるタスクによ
りleafノートのrepresentationを定義する。異なる3D認識のタ
スク（part segmentation, object recognition, shape
retrieval）で従来⼿法と同じレベルの精度を⽰した。
・3D認識のタスクに対し，従来は3Dデータ
をuniform voxelに変換してから，3DCNNs
を適応。この研究は新たな3Dポイントクラ
ウドの認識のタスクに適応できる構造を提案
し，直接point cloudを処理できる。run
timeメモリーのコストも⼤幅に削減できる。
・octree, r-tree,kd-treeなどの従来幾何構
造でディープラーニングの構造を構築する可
能性を
⽰した。
Links
Kd-Netの構造

James Thewlis, Hakan Bilen, Andrea Vedaldi, “Unsupervised learning of
object landmarks by factorized spatial embeddings”, in ICCV, 2017. (Oral)
【29】
Keywords: Unsupervised learning, Invariant landmarks detection, factorization of image deformation
新規性・差分
概要
・unsupervisedで⼤量なデータから物体カテゴリご
との物体の不変structure（視点の変化と物体変形に
不変）を学習する⼿法を提案した。
・物体カテゴリごとに，不変な物体空間Soを定義
し，変形と視点が変換しても不変な物体のランドマー
クをその空間に対応するネットワークを構築した。
・実験を通し，提案⼿法がロバストで物体ランドマー
クを検出できることを⽰した。
・unsupervisedで物体構造学習と検出⼿法を提案
した。
・human face のデータセットで⾼い精度で
landmarkを検出できて，提案⼿法を⾼精度な
human face landmark検出の回帰に⽤いられるこ
とを⽰した。
Links
概要図
結果（左：検出したlandmark, 右：300-W
データセットでの結果⽐較）
物体の不変structureの概要
（同じクラスの物体の対応landmark
を空間S0の同じポイントrに表⽰す
る）

Zhiqiang Shen, Zhuang Liu, Jianguo Li, Yu-Gang Jiang, Yurong Chen,
Xiangyang Xue, “DSOD:Learning Deeply Supervised Object Detectors
from Scratch”, in ICCV, 2017.
【30】
Keywords:Object detection, training from scratch, DenseNet, SSD
新規性・差分
概要
・初の0からobject detectorsを訓練する（予めImagenet で
classiﬁcationを訓練する必要なし）フレームワークを提案した。
・0からobject detectorsを訓練する4つの法則を指摘した：１．
Proposal-free(multi-scaleのdeep supervisedにより実現できる )２．
deep supervision(これにより多層的で統合的な⽬標関数を作れる，ま
たvanishing gradients問題も解決できる)３．stem block(これにより
有効的に情報量の減衰を防げる)４．dense prediction structure(右図
の右に⽰している．この構造により，より少ないパラメータ量で⾼い精
度を得られる)。
・pascal voc, coco datasetで提案⼿法はstate-of-artな精度を⽰した
（訓練データはただvocとcoco, imagenetで訓練しない）
・初のimagenetなどでpre-trainしないobject
detectionの提案。しかも精度⾼い。
・classﬁcation, object detectionの２つ部分を
別々のロス関数で定義、別のデータセットで訓練
することがないので、imagenetのrgb画像形式に
こだわらず、医⽤画像やデプス画像やマルチスペ
クトル画像にも活⽤できる。
Links
コード: https://github.com/szq0214/DSOD
2種類のBoundingbox予測層の構造（左：SSD base,
右：DenseNet base）
PASCAL VOC2012で
の結果（左：定性的，
右：定量的）

Vu Nguyen, Tomas F.Yago Vicente, Maozheng Zhao, Minh Hoai, Dimitris
Samaras, “Shadow Detection with Conditional Generative Adversarial
Networks”, in ICCV, 2017. (Oral)
【31】
Keywords: Shadow detection, conditional GAN, scGAN
新規性・差分
概要
・conditional GANをshadow detectionに⽤いる⼿法を提案した。
・G（⽣成器）構造：U-Netの構造を⽤いている。⼊⼒は元の画像と
sensitivity parameter w，出⼒はshadowのマスク。
・D（弁別器）構造：Conv*4,FC,sigmoid activated functionの構
造を⽤いている。また，⼊⼒は元の画像とshadow マスク（ground
true/⽣成器の結果），出⼒はreal かfakeのラベル。
・UCFとSBUの２種類の⼤規模なshadow detction datasetで評価実
験を⾏い，従来の⼿法より最⼤17%のエラ=率を削減できた。
・cGANをimage-to-image translation問題に応⽤する
新たの例です。有効性を⽰した。
・cGANの構造に調整可能なパラメータを⼊れる新たな
cGAN構造scGANを提案した。提案のscGAN構造を⽤い
て他のクラスラベル分部はunbalancedな問題にも適応
できる。（例えばinfrastructure inspection
problems）
・従来のshadow detectionの⼿法はCRFにより局所的
な情報から推定する⽅が多い。提案⼿法は全局データ情
報を利⽤してる。
Links
論⽂:
http://
www3.cs.stonybrook.ed
u/~minhhoai/papers/
scGAN_ICCV17.pdf
scGANネットワーク構造
結果（定性：右
図，SBU Shadow
datasetでの結果：
下図）

Mehdi Noroozi, Hamed Pirsiavash, Paolo Favoro, “Representation
Learning by Learning to Count”, in ICCV, 2017. (Oral)
【32】
Keywords: Representation Learning,self-supervised learning, contrastive loss
新規性・差分
概要
・visual primitivesをcountingすることをベースとした監督信号でrepresentative学習の
⼿法を提案した。
・画像をパーツにし，全部のパーツのvisual primitivesの統合が画像を縮⼩して計算する
visual primitivesの数が⼀緒になることをベースに，contrastive lossを作っている。右図
のようAlexNetベースなネットワーク構造を⽤いる。同じ画像の部分のvisual primitives
の統合と画像を縮⼩して計算したvisual primitivesの差をできるだけ⼩さくし，異なる画
像の差を⼤きくするように学習する。
・提案⼿法はtransfer learning benchmarkより⾼い
精度を⽰した。
・⼿動でアノテーションする必要なし， visual
primitivesをcountingすることをベースとした⾃
⼰監督なrepresentation learning⼿法を提案し
た。
・提案⼿法が有効的に画像をscene outlineで
clusteringできることを⽰した。また，transfer
learningではstate-of-artな精度を⽰した。
・提案⼿法が部分の和＝全体の概念の有⽤性を⽰
した。この概念は⾊んな別のタスクに応⽤でき
る。
Links
提案⼿法ネットワーク構造
結果（PASCALデータセットでの
transfor 学習の定量的な結果：
下図，右図：COCOデータセット
でのactivateが⾼い結果（左），
activateが低い結果（右））

Shizhan Zhu, Sanja Fidler, Raquel Urtasun, Dahua Lin, Chen Change
Loy, “Be Your Own Prada: Fashion Synthesis with Structural
Coherence”, in ICCV,2017 .
【33】
Keywords: Generative Adversarial Networks, Image Retrival
新規性・差分
概要
・GANを⽤いた服装の合成画像⽣成の研究．合成したい
服装の⽂章を⼊⼒内容に沿った服装を⽣成し，⼊⼒画像中
の⼈物の姿勢に沿ってレンダリングする．79K枚分の服装
画像の⽂章記述を収集し，DeepFashionデータセット[8]
を拡張した．
・評価実験では，合成データを⽤いたファッションアイテ
ム検索およびアンケート調査といった定量的・定性的評価
を⾏い、両⽅でベースラインを上回った．
・⼈物の姿勢を保持したままでの服装の合成を実現した．
Fashion GANの提案: 2種類のGANを⽤いている．まず初め
に，服装画像および⽂章を⼊⼒し， Generatorからセグメ
ンテーションマップ S が⽣成される．次に⽣成したセグメ
ンテーションマップ S に基づいて，もう⼀⽅のGANによっ
て⽣成した服装(テクスチャ)をレンダリングしていく．
Links
論⽂:
https://www.cs.toronto.edu/~urtasun/publications/
zhu_etal_iccv17.pdf
プロジェクト: http://mmlab.ie.cuhk.edu.hk/projects/FashionGAN/
(上) Fashion GANのフレームワーク:
(中央) 定量的評価結果: ⽣成画像によ
るファッションアイテム検索の精度
(下) 定性的評価結果: ⼈による評価
結果．ランクが⾼いほど不⾃然な合成
画像

Ramprasaath R. Selvaraju, Michael Cogswell, Abhishek Das, Ramakrishna
Vedantam, “Grad-CAM: Visual Explanations from Deep Networks via
Gradient-based Localization”, in ICCV, 2017.
【34】
Keywords: Visual explanations for CNNs, guided backpropagation, CAM(class activation mapping)
新規性・差分
概要
・あらゆるCNN-based⼿法に対し，ビジュアル解釈でき
るclass discriminative localization⼿法Grad-CNNを提
案。
・画像及び興味があるクラスを⼊⼒して，Grad-CAM（右
図）を⽤いてそのクラスの判別にあたって，ピクセルの貢
献度を表すヒートマップ⽣成できる．また，従来の
guided backpropagation(興味があるクラスを１、他のク
ラスを０でbackpropagation)の結果と組み合わせ，より
⾼精度なclass discriminative localization図を⽣成でき
る．
・実験により，提案⼿法のlocalization能⼒が従来の
weakly supervised⼿法精度が⾼い．
・あらゆるCNNs⼿法をビジュアル解釈できる
（例えば：image captioning，visual question
answeringなどのタスクの⼿法にも対応可能）
・識別失敗例の可視化により，失敗する原因を分
析する⼿段を提供した
・Grad-CAMを⽤い，データセットのバイアス
性を分析できる
Links
コード: https://github.com/ramprs/grad-cam
Grad-CAMのoverview
ILSVRC-15val
に対し，異なる
weakly-
supervised
localization⼿
法の⽐較
（ｂ：guided
backprop, c:
Grad-
CAM,d:guided
Grad-
CAM）:Guided
Grad-CAMが⾼解像
でビジュアル解釈で
きる

Wadim Kehl, Fabian Manhardt, Federico Tombari, Slobodan Ilic, Nassir
Navab, “SSD-6D: Making RGB-Based 3D Detection and 6D Pose
Estimation Great Again”, in ICCV, 2017. (Oral)
【35】
Keywords: 3D detection, 6D pose estimation, Inception V4, SSD
新規性・差分
概要
・1枚のRGB画像から物体検出と物体6Ｄ姿勢を同時に⾏
う⼿法を提案した．
・ネットワーク構造（右図）の流れは：1．⼊⼒画像から
Inception V4を⽤いて，6スケールの特徴マップを⽣成す
る．2．SSD構造をベースとした⼿法で，6スケールの特徴
マップから同時にclass,viewpoints,in-plane rotationを
推定する．トレーニングデータはCOCO datasetを背景に
し，openGL により３次元モデルを背景に⼊れる⼈⼯デー
タ。
・提案⼿法は従来のstate-of-artなRGB-Dを
ベースとした⼿法より⾼い精度を得られた。
しかも，処理スピードは１桁程度速い。
・初めてのSSD構造を6Ｄ姿勢推定問
題に応⽤する⼿法。
・従来⼿法よりstate-of-artな精度と
速さ
・rgb写真を⽤いても有効的３d姿勢推
定できることを⽰した
Links
論⽂ :
http://openaccess.thecvf.com/
content_ICCV_2017/papers/
Kehl_SSD-6D_Making_RGB-
Based_ICCV_2017_paper.pdf
https://wadimkehl.github.io/
提案⼿法のネットワーク構造
結果（左下
図：定量的結
果（F1-
Score），右
下図：定性的
結果）

Christoph Feichtenhofer, Axel Pinz, Andrew Zisserman, “Detect to Track
and Track to Detect”, in ICCV, 2017. (Spotlight)
【36】
Keywords:Object detection and tracking from video, RPN, R-FCN
新規性・差分
概要
・ビデオから同時に物体検出と追跡を⾏うEnd-to-Endな
ネットワーク構造を提案した。
・提案ネットワーク（右図）はまず隣接するフレームに対
し，CNNにより特徴マップを抽出する．抽出した特徴マッ
プに対し，RPNとRoI Poolingにより物体のクラス及びバ
ウンディングをregressionする．そして，同じ特徴マップ
をR-FCN構造をベースな構造によりRoI Trackingを⾏い，
出⼒として隣接するフレーム間の対応バウンディング間の
transformationが得られる．この結果によりさらにフレー
ム間の物体検出を最適化できる．
・ImageNet VID validationデータセットで⾼精度達成。

・ビデオから同時に物体検出と追跡を⾏うネットワーク構
造を提案した。この２つのタスクを同時に⾏うことの有効
性を⽰した．
・隣接するフレーム間の対応関係を求められるcorrelation
feature を提案した。
・従来⼿法より構造簡単しかも⾼精度。
Links
論⽂ :
http://www.robots.ox.ac.uk/~vgg/publications/2017/
Feichtenhofer17/feichtenhofer17.pdf
https://www.robots.ox.ac.uk/~vgg/research/detect-
track/
提案⼿法のネットワーク構造
ImageNet VID validation setでの定量的結果

Seil Na, Sangho Lee, Jisung Kim, Gunhee Kim, “A Read-Write Memory
Network for Movie Story Understanding”, in ICCV, 2017.
【37】
Keywords: Memory Network, movie understanding
新規性・差分
概要
・新しい記憶装置付きニューラルネットワークを構築することによっ
て、⻑いビデオを理解し、QAタスクに取り組む。
・RWMN(Read-Write Memory Network)はWrite networkとRead
networkの⼆つのネットワークで構成され、従来⼿法より⾼い容量や柔
軟なメモリー読み込み・書き込みを達成した。
・QAベンチマークデータセットにおいてベスト性能を達成。
・既存⼿法では各メモリースロットを独⽴のブロックとす
るが、この研究では、多層のCNN構造を利⽤することに
よって、連続的なメモリーをチャンクとした読み込むこと
を可能にした。
・メモリーネットワークの読み込み・書き込み操作に対し
て、初めての多層CNNの利⽤の試み。
Links
論⽂ :
http://openaccess.thecvf.com/content_ICCV_2017/
papers/Na_A_Read-
Write_Memory_ICCV_2017_paper.pdf

Yikang Li, Wanli Ouyang, Bolei Zhou, Kun Wang, Xiaogang Wang, “Scene
Graph Generation from Objects, Phrases and Caption Regions”, in ICCV,
2017.
Keywords: Multi-task Network, Motion Capture, Scene graph generation
概要
・Multi-level Scene Description Networkを提案した．
・画像中の物体検出と同時に説明⽂を⽣成するだけでなく，説明⽂と画像
の対応関係も⽣成できる．説明⽂のある部分が画像の何処に対応するかを
反映できる．
・State-of-artの結果を達成した．
新規性・差分
・⼀つのネットワークで物体検出，説明⽂⽣成とモーション
キャプチャーの多タスク処理ができる構造を提案した．
・その構造が画像から抽出したセマンティックレベルの領域
特徴，⽂章の特徴また物体の特徴を有効的に融合する．
Links
【38】

Saihui Hou, Xu Liu and Zilei Wang, “DualNet: Learn Complementary
Features for Image Recognition”, in ICCV, 2017 .
Keywords: Image Recognition, Parallel Neural Networks, Complementary Features
概要
・画像認識でより精確な特徴を抽出できるDualNetを提案した
・提案した構造を現在よく使われるモデル（VGGやCaﬀeNetなど）に適
⽤すると，明らかに認識性能が上がることが分かる．またCIFAR-100 で
state-of-the-art な認識精度を達成した．
新規性・差分
・⼆つのSubnetworkから組み合わせる．相補的な特徴を学
習できる．
・End2Endな学習でモデルをトレーニングすることではな
く，まず⼆つのSubnetworkを交替的にトレーニングし，ま
た全ての分類器に対してFinetuningする．
Links
論⽂:
http://home.ustc.edu.cn/~saihui/project/dualnet/
iccv17_dualnet.pdf
【39】

Aseem Behl; Omid Hosseini Jafari; Siva Karthik Mustikovela; Hassan Abu
Alhaija; Carsten Rother; Andreas Geiger, “Bounding Boxes,
Segmentations and Object Coordinates: How Important Is Recognition
for 3D Scene Flow Estimation in Autonomous Driving Scenarios?”, in
ICCV, 2017 .
Keywords: 3D Scene Flow Estimation, CNN, CRF
概要
・⼤きな移動や局所的に曖昧な場合があるため、既存の3Dシーンフロー
推定の⽅法はよくできない場合がある．本論⽂がこれを克服するために，
２DのBounding-boxとInstance Segmentationの情報を利⽤する⼿法を
提案した．
新規性・差分
・幾何学的⼿掛かりを⽤いて新しい3D scene ﬂow ⼿法を
提案した， KITTI 2015 scene ﬂow benchmarkでstate-
of-the-art の性能を達成した．
・2DのBounding-boxとInstance Segmentation情報を利
⽤して3Dパーツ座標の予測性能を向上させる．
Links
論⽂: http://www.cvlibs.net/publications/Behl2017ICCV.pdf
【40】

Pan He; Weilin Huang; Tong He; Qile Zhu; Yu Qiao; Xiaolin Li, “Single
Shot Text Detector With Regional Attention”, in ICCV, 2017 .
Keywords: text detection, word-level, text attention, inception
概要
・Single-shot boxをベースとして⾃然シーンから⽂字領域の
Bounding-boxを直接出⼒する⼿法を提案した.
・ICDAR2015データセットでF-scoreが77%に達成した．他
のテストセットもトップの結果を得た．
新規性・差分
・Attentionモデルを利⽤し，粗いword-levelの⽂字領域の
特徴を求められる．そのattentional mapを⽤いて，より⾼
い精度を達成する可能性がある．
・Inceptionモデルを利⽤して，スケールが違うカーネルで
処理したら，より詳しい特徴が得られる．こうすると，学習
したモデルがmulti-scaleとmulti-orientationの⽂字にうま
く対応できる．
Links
【41】

Christoph Lassner; Gerard Pons-Moll; Peter V. Gehler, “A Generative
Model of People in Clothing”, in ICCV, 2017 .
Keywords: Attribute Recognition, GAN, Super Resolution
概要
・監視カメラから⼈の属性を分析する
・低解像度と遮断される場合にうまく対応できる．80%の
部分が遮断されても⼈の属性を抽出できると記載した．
新規性・差分
・敵対的学習の⼿法を⽤いて，Reconstruction
Networkを提案し，遮断された画像を⾃動的に補完す
る．
・Super Resolution Networkを利⽤し，低解像度の画
像からより⾼解像度の画像を⽣成できる．
Links
【42】

Masaki Saito; Eiichi Matsumoto; Shunta Saito; Peter V. Gehler, “Temporal
Generative Adversarial Nets With Singular Value Clipping”, in ICCV, 2017 .
Keywords: Temporal GAN, Video, Stable Training, SVC
概要
・ビデオを⽣成できるGANを提案した．意味的に
ビデオを⽣成することも可能．
新規性・差分
・Generatorが昔の三次元畳み込み層の構造では
なく，まずは提案されたTemporal Generatorを⽤
いて時間的にフレームに対応するLatent変数を⽣
成する．そして，そのLatent変数を利⽤し，フ
レームごとに画像を⽣成する．
・GANの学習が不安定に対して，Wasserstein
GANの⼿法でEarth Moverʼs distanceを最適化す
る．
・WGANの学習をより安定させるために，
Singular Value Clipping（SVC)を提案した．
Links
論⽂:
papers/
Saito_Temporal_Generative_Adversarial_ICCV_2017_p
aper.pdf
【43】

Xudong Mao; Qing Li; Haoran Xie; Raymond Y.K. Lau; Zhen Wang;
Stephen Paul Smolley, “Least Squares Generative Adversarial Networks”,
in ICCV, 2017 .
Keywords: GAN, Least squares loss function, Stable training
概要
・LSGAN(Least Squares Generative Adversarial
Networks)を提案する．
・LSUNとCIFAR-10データセットを学習し，モデル
を評価した．結果としては，LSGANがよりリアルな
画像を⽣成できる．
・LSGANを⽤いて⼿書きの中国語（漢字）を⽣成す
る．ちゃんと読める結果を得られた．
新規性・差分
・ Least Squares Loss Functionを⽤いて，
Discriminatorからのロスを計算する．その最適化
はピアソンχ2分布の最適化と⾒なす．
Links
論⽂:
papers/
Mao_Least_Squares_Generative_ICCV_2017_paper.p
df
Generator Discriminator
【44】

Eleonora Maset, Federica Arrigoni, Andrea Fusiello, “Practical and Eﬃcient
Multi-View Matching”, in ICCV, 2017. (Spotlight)
【45】
Keywords: Multi-views matching, spectral decompostion
新規性・差分
概要
・spectral decompositionをベースとした新たなmulti-view matching
⼿法を提案した．
・ノイズが含めた2つの画像のマッチングから，2つの画像の⼀致性を最⼤
化することにより，画像間の対応関係を求める．具体的なステップは：
1．⼊⼒の対応関係が含めたblock-matrixから特徴ベクトルを求める．
２．特徴ベクトルをrelative permutationsに投影し，マッチングを出⼒す
る．
・合成データセットとリアルデータセットを⽤いて実験を⾏い，両⽅とも
state-of-artな精度及びスピードを達成した．
・提案アルゴリズムMatchEIGの構造が簡潔で，簡単にMATLABなどを⽤い
てコード化できる
・従来⼿法と⽐べたら，速いしかも正確
・universe sizeなどが増やしても時間コストがほぼ変えない。⼤きいデー
タ対応可能。
Links
論⽂:
Maset_Practical_and_Eﬃcient_IC
CV_2017_paper.pdf
下図：異なるuniverse size, observation ratio, 視点数の場
合，時間コストの⽐較（提案⼿法：MatchEIGが⼤規模なデー
タを実時間で速い対応できることを⽰した）
右図：異なる視点
数，observation
ratio,⼊⼒対応デー
タのエラ率の場合
の，F-scoreの⽐較
（提案⼿法の
MatchEIGが視点数
多くて⼊⼒データの
エラ率⾼くて，観測
率が低い場合でも相
対的に⾼い精度を得
られることを⽰し
た）

Marco Pedersoli, Thomas Lucas, Cordelia Schmid, Jakob Verbeek,
“Areas of Attention for Image Captioning”, in ICCV , 2017.
【46】
Keywords: Image Captioning, RNN
新規性・差分
概要
・画像説明⽂の⽣成⼿法の提案．提案⼿法では，画像領域
(Attention領域)、単語、RNN間の依存関係をモデル化し，単
語とAttention領域との間の直接的な関連付けを可能にする．
・Atteintion領域の⽤いた画像説明⽂⽣成⼿法; “Areas of
Attention” の提案
・字幕モデルのための画像特有の領域を導き出すために、
新規のネットワーク構造を提案
・ 3種類の物体候補領域提案⼿法(CNN Activation grid,
object proposal, region proposal)にそれぞれ提案⼿法を
組み合わせて有効性を評価
Links
論⽂:
http://openaccess.thecvf.com/content_ICCV_2017/papers/
Pedersoli_Areas_of_Attention_ICCV_2017_paper.pdf
・単語-画像領域間の依存関係学習のためのフレームワーク:現在の状態h
を与えられたときの単語と画像領域による条件付き確率分布p(w,r|h)を
⽤いて，各Attention領域と単語の依存関係を直接学習する．
・提案⼿法の可視結果: 上からそれぞれCNN ActivateGrid，object
Proposal, region proposalによる各単語とAttention領域との可視結果．
枠が太いほど，単語とAttention領域の依存関係が強い
・既存⼿法との⽐較:
“Areas of
Attention”が提案⼿
法．state-of-the-
artである⼿法と同程
度の精度での画像
キャプショニングが
可能

Ludovic Magerand, Alessio Del Bue, “Practical Projective Structure from
Motion”, in ICCV, 2017. (Oral)
【47】
Keywords: SfM, Projective SfM
新規性・差分
概要
・missing data, outliersに強く，⼤規模シーンの
3次元リコンストラクションに⽤いられる新たな
projective SfM⼿法を提案した．
・従来のProjectiveリコンストラクション理論に，
新たなprojective parametersに制約を加えた．ま
た，提案⼿法のプロセスは：1．projectionsを正
規化し，データmatricesを計算する．2．サブ視点
とポイントでロブストなリコンストラクションを
⾏う．3．全部の視点を計算するまで，反復で視点
とポイントを追加しリコンストラクションを⾏
う．
・state-of-artなリコンストラクション精度を⽰し
た
・missing data, outliersに強い．実験で
98%missing dataが含めた中型と⼤型のシーンリコ
ンストラクションにも良好な精度を⽰した．
・ransac baseな最適化⼿法を⽤いることで，⼤規模
なシーンの復元に対しても計算時間コストが⼤きく
増加しない．
Links
論⽂:
papers/
Magerand_Practical_Projective_Structure_ICCV_2017_p
aper.pdf
提案⼿法のリコンストラクションの最適化過程
結果（中図：outlierが含めた場合，異なる⼿法のエラー率の⽐較結果、
下図：提案⼿法を⽤いて復元した三次元形状とシーンの例）

Yikang Li, Wanli Ouyang, Bolei Zhou, Kun Wang, Xiaogang Wang,
“Scene Graph Generation from Objects, Phrases and Region Captions”, in
ICCV, 2017.
【48】
Keywords: Object Detection, Captioning, Scene Graph
・物体検出，シーングラフ⽣成（物体間の関係を記述），説明⽂⽣成と
いう3つのレベルの異なるタスクを同時に解く⼿法を提案．各タスクに
必要な特徴量は相関が強く，相補的に働くため同時に解くことが有効と
なる．Object, Captionの候補領域をまず⽣成し，画像をCNNに通した
後，各領域のROI Poolingを⾏い領域ごとの特徴量を計算．各特徴量を
混ぜながら利⽤してシーングラフ⽣成やCaptioningを⾏う．
・物体検出，シーングラフ⽣成，説明⽂⽣成をEnd-to-Endで同時
に学習，実⾏することを可能にした
・動的なグラフ⽣成を⾏う層をCNNに追加することでシーングラフ
の⽣成を実現した
Links
論⽂：
http://people.csail.mit.edu/bzhou/publication/ICCV_scenegraph.pdf

Ranjay Krishna, Kenji Hata, Frederic Ren, Li Fei-Fei, Juan Carlos Niebles,
“Dense-Captioning Events in Videos”, in ICCV, 2017.
【49】
Keywords: Video Captioning, Dense Captioning, 3D Convolution
新規性・差分
概要
・動画に対してのDenseCaptioning [Johnson+, CVPR2016]を実
⾏した。同タスクはActivityNet Challengeのタスクのひとつにも取
り上げられており、849時間に及ぶ20Kのビデオ、トータルで100k
の動画キャプショニングが与えられている。特徴量はC3Dベースで
抽出（ActivityNetのHPからDL可能、fc7の4096-d特徴をPCAによ
り500-dに圧縮
http://activity-net.org/challenges/2016/
download.html#c3d）、フレーム単位の候補セグメントを抽出
し、キャプショニングモジュールに⼊⼒する。同モジュールでは候
補領域の開始・終了・Hidden Representationを⼊⼒としてC3D
fc7+LSTMにより動画のキャプショニングを実⾏。
・動画に対するキャプショニング⼿法Dense-Captioning
Events in Videosを提案
・ActivityNetのビデオキャプショニングタスクにてベン
チマークを⾏った結果、State-of-the-artな結果を実現
Links
論⽂： https://arxiv.org/pdf/1705.00754.pdf
プロジェクト：
http://cs.stanford.edu/people/ranjaykrishna/
densevid/
116

Tokmakov, Pavel, Karteek Alahari, and Cordelia Schmid., “Learning Video
Object Segmentation with Visual Memory”, in ICCV, 2017.(Oral)
【50】
Keywords: video object segmentation, convoutional GRU
新規性・差分
概要
・convoutional GRUを⽤いることで, 時系列情報を考慮
した動画ベースのobject segmentationの⼿法
・semantic segmentation でpre-trainしたtwo stream
のCNNを⽤いて特徴抽出し, その特徴量をconvoutional
GRUに⼊⼒
・convoutional GRUにおける, reset gateとupdata gate
の可視化を⾏い, チャネルごとの記憶する情報と破棄する
情報について考察している
・従来⼿法と⽐較して6%の精度向上しSoTA
・フロー情報のみでなく, RGBと時系列解析モデルが
object segmantation で重要であることが実験的に確認
できた
Links
論⽂: https://arxiv.org/abs/1704.05737v1

Huijuan Xu, Abir Das, Kate Saenko, “R-C3D: Region Convolutional 3D
Network for Temporal Activity Detection”, in ICCV, 2017.
【51】
Keywords: CNN, C3D, Activity Detection, R-CNN
新規性・差分
概要
・Temporal Activity Detectionのための⼿法を提案．基
本的にはObject DetectionにおけるFaster R-CNNを
Activity Detectionに応⽤した⼿法．C3Dをベースとし，
3D Convolutionをして特徴マップを計算後，Region
Proposals NetworkでTemporal Regionsを推定，各
RegionをClassiﬁcation Networkで識別する．
THUMOSʼ14やActivityNetなどのデータでstate-of-the-
artな精度を達成．C3Dベースなこともあり，⾮常に⾼速
な動作を実現できており，1000fpsを達成している．
・映像に対してFaster R-CNNの枠組みの適⽤を成功させ
た点に新規性がある
・精度もDetectionの問題においてstate-of-the-artを達成
した．
Links

Mohammadreza Zolfaghari, Gabriel L. Oliveira, Nima Sedaghat, Thomas
Brox, “Chained Multi-stream Networks Exploiting Pose, Motion, and
Appearance for Action Classiﬁcation and Detection”, in ICCV, 2017.
【52】
Keywords: 3D CNN, Multi-stream convnet, Action Recognition
新規性・差分
概要
・⼈物⾏動認識に対して、複数のモダリティ（Pose, Optical Flow, RGB）の⼊⼒を適⽤す
る。連続的な⼿がかりを加えて総合的に判断するためにMarkov chain modelを適⽤する。
姿勢推定にはFat-Net[27], 3D-CNNにはC3D[37]、オプティカルフローは基本的にTwo-
stream CNNを参考にした。Chained Multi-Stream 3D-CNNは後段にロスを伝えていく、
各⼯程で誤差学習ができるというところがミソである。Chained Multi-Stream 3D-CNN
の出⼒は後段に伝え、全結合層を経て次の出⼒が⾏われる。
・HMDB51(69.7%), J-HMDB(76.1%), NTU
RGB+D(80.8%)にて識別率、UCF101
(38.0%@IoU0.3)やJ-HMDB(75.53%@IoU0.5)
にて⾏動検出率がstate-of-the-art
・Markov ChainのOptical Flow, Pose, RGBの順
番は全通りを探索してもっとも良い順番にした
・Poseのモダリティによる⾏動識別では
55.7%@UCF101, 40.9%@HMDB51,
47.1%@J-HMDBであった
Links
Chained Multi-Stream
3D-CNN。上から順列に
Pose, Optical Flow, RGB
と連なっている。下の階層
は上の階層から情報を受け
取り出⼒を⾏う。ロスであ
るY_poseやY_ofは学習に
は使⽤され、最終的な出⼒
であるY_rgbがラベルの推
定には使⽤される。

Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros, “Unpaired
Image-to-Image Translation using Cycle-Consistent Adversarial
Networks”, in ICCV, 2017.(Spotlight)
【53】
Keywords: Cycle GAN
新規性・差分
概要
・CycleGANの提案。pix2pixのように、ピクセル同⼠が対
応付いている画像のペアが必ずしも⼿に⼊らない際の学習
⽅法について提案している。（右図）画像（X）の変換
（Y）、逆変換（X^）を⾏い、XとX^を⽐較して誤差
（Cycle-Consistency Loss）を得る。これにより、変換
後のピクセル対応の教師がなくても学習を可能とした。
・教師ありによるpix2pixに対して、教師なし学習のフ
レームワークにより学習サンプルを増加させることができ
るフレームワーク”CycleGAN”を提案した。
・アイディアはシンプルで、原画像からの変換、逆変換に
より、原画像と逆変換画像の誤差を求める。
Links
論⽂： https://arxiv.org/pdf/1703.10593.pdf
GitHub1 ： https://github.com/junyanz/CycleGAN
GitHub2 ： https://github.com/hiwonjoon/cycle-gan-tf
プロジェクト： https://junyanz.github.io/CycleGAN/

Rui Hou, Chen Chen, Mubarak Shah, “Tube Convolutional Neural Network
(T-CNN) for Action Detection in Videos”, in ICCV, 2017.
【54】
Keywords: Action Detection, Tube Detection, CNN, C3D
新規性・差分
概要
・Faster R-CNNを映像に拡張して時空間⾏動検出をする
T-CNNを提案．Temporal Detectionなどと違い⾏動中の
各フレームをBounding Boxまで推定する問題設定．
Faster R-CNNのRPNを参考にTube Proposal Network
(TPN) を導⼊．映像を8フレームごとのクリップに分割
し，各クリップに対してTPNによりProposal tubeを算
出．クリップ間でTubeを結合し，結合されたTubeを識別
することで⾏動を検出する．Tubeに対するPoolingの⽅法
としては，最初に空間⽅向でRoI Pooingしてから時間⽅向
でPooingする (Tube of Interest Pooling (ToI
Pooling))．
・Faster R-CNNを拡張して時空間⾏動検出を⾏うT-CNN
の実現に新規性．（T-CNNという名前は新規でない）
・TPNとToI Poolingの実装により映像への拡張を実現．
Links

Yue Zhao, Yuanjun Xiong, Limin Wang, Zhirong Wu, Dahua Lin, Xiaoou
Tang, “Temporal Action Detection with Structured Segment Networks”, in
ICCV, 2017.
【55】
Keywords: Temporal Action Detection, CNN, Completeness, Action Proposals
新規性・差分
概要
・前ページの”A Pursuit of Temporal Accuracy …”の続
報のような論⽂．あるProposalの領域をstarting, course,
endingに分割してTemporal Pyramid Poolingをする
(Structured Pyramid Pooling)．これにより明⽰的に⾏動
の各段階の特徴を抽出する．この特徴ベクトルに対してク
ラス識別とクラスごとのCompleteness（⾏動全体を含ん
でいるかどうか）の推定を⾏うことで⾏動を検出する．
Proposalsは前論⽂と同じくフレームごとのActionnessを
算出してそれをグルーピングするTemporal Actionnes
Groupingを⽤いていて，特徴量はTwo-stream CNNベー
ス．これらにより検出の精度が更に向上している．（現在
ActivityNet Challenge 2016のActivity Detectionの課題
で1位になっているのは数値と著者を⾒るとこの論⽂．
CVPR2017とあるがarXivに記載がないことを⾒るとリ
ジェクトされた？）
・明⽰的にstarting, course, endingといった区間を定義
してPyramid Poolingすることの有効性を⽰した点に新規
性
・前論⽂を引⽤していないのでComplenetessもこの論⽂
の新規性となる？
Links
論⽂： https://arxiv.org/abs/1704.06228
プロジェクト： http://yjxiong.me/others/ssn/

Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaolei Huang,
Xiaogang Wang, Dimitris Metaxas, “StackGAN: Text to Photo-realistic
Image Synthesis with Stacked Generative Adversarial Networks” , in
ICCV, 2017.(Oral)
【56】
Keywords: stacked GAN
新規性・差分
概要
・Generative Adversarial Network（GAN）を2段階にス
タッキングすることで、⽣成する画像をよりリアルにし
た。ステージ１では⼤まかな形状や⾊のつながりを⽣成す
る低解像の画像が⽣成され、ステージ２ではステージ１の
結果（やテキストによるキャプション）を⼊⼒として写真
に近いリアルな画像を出⼒する。
・学習済みの⽣成モデルはテキストを⼊⼒として画像を出
⼒するモデルになった（おそらく初めて）
・256x256, 128x128 [pixel]の画像出⼒に関してState-
of-the-Art。CUB（28.47%改善）や
Oxford-102（20.30%改善）データセットに対して実験
を⾏った
Links
論⽂：
1612.03242.pdf
テキストによ
る⼊⼒をベー
スとして、２
ステージの学
習を⾏う。ス
テージ１で出
⼒された画像
はステージ２
の⼊⼒として
扱われる。ス
テージ１では
ラフだった低
解像画像が、
ステージ２で
は⾼解像な画
像に変換され
ている。

Pratul P. Srinivasan, Tongzhou Wang, Ashwin Sreelal, Ravi Ramamoorthi,
Ren Ng, “Learning to Synthesize a 4D RGBD Light Field from a Single
Image”, in ICCV, 2017. (Spotlight)
【57】
Keywords: Synthesizing light ﬁeld
新規性・差分
概要
・安価なライトフィールドカメラが出てきて⼤規模なデータ収集ができるようになったので，CNNにより単画像からライトフィールドを作っ
てしまおうという試み．3000超のライトフィールド画像をLytroカメラで撮影し，学習させたCNNによりRayDepth画像を⽣成（，そこから
従来法により）ランバーシアンライトフィールドを⽣成し，更にそこからCNNにより結果の合成ライトフィールドを⽣成する．テクスチャの
ない部分によるRayDepthの推定誤差は幾何学的整合性を考慮した教師なし学習により正則化する．デプス推定において，ライトフィールド
画像を使⽤するよりも良い結果が得られることがある．ライトフィールドより⽣成された画像に表れてしまう，⾃⼰遮蔽によるアーティファ
クトが出現しない．リフォーカス画像⽣成のデモンストレーションも掲載．
・単画像から4D RGBD ライトフィールドを⽣
成．
・デプス推定において本家ライトフィールドよ
り良い結果が得られることがあった．
Links
論⽂:
https://arxiv.org/abs/1708.03292

Seong Joon Oh Mario Fritz Bernt Schiele, “Adversarial Image Perturbation
for Privacy Protection ̶ A Game Theory Perspective”, in ICCV, 2017.
【58】
Keywords: Adversarial Image Perbutation, Game Theory
新規性・差分
概要
・画像投稿型SNSが流⾏するなか，プライベート写真はアップロードしたいが特定顔認識までされたくないという要求がある．認識され
ないように画像処理をかける⽅法があるが，ブラーのような，⾒えにくくなるほどに画像劣化する⼿法は使いたくない．最近は
Adversarial Image Perturbations (AIP)と呼ばれる⼿法が，⼤きな画像劣化なしに認識器を騙すことができると報告されているが，更に
⼩さく平滑化をかけるなどの対応策もある．認識させない⼿法（保護策）とそれを乗り越える⼿法（対応策）とのイタチゴッゴになる．
この研究では，どの対応策がとられるかわからない状況
であることを考慮し，①認識器に適応的なAIP⼿法を提案
②ゲーム理論の枠組みの導⼊による保護策の有効性の
評価を⾏う．
・画像認識器を騙す⼿法（AIP）に関する新提
案，ゲーム理論を⽤いた評価．
Links
論⽂：
papers/
Oh_Adversarial_Image_Perturbation_ICCV_2017_paper.
pdf
提案手法->
並進
ノイズ
ブラー
クロップ
リサ
イズ

Mark Buckler, Suren Jayasuriya, Adrian Sampson, “Reconﬁguring the
Imaging Pipeline for Computer Vision ”, in ICCV, 2017. (Oral)
【59】
Keywords: Sensor design, Image Signal Processing
新規性・差分
概要
・ハードウェア設計の話．⾼速化の話は熱いが，キャプチャ・処理まわりのコストにつ
いては注⽬されていない．そこで，計算量・消費電⼒の削減に寄与する画像信号処理
（ISP）パイプラインについて調査した．
・8つのアルゴリズムについて調べたところ，①デモザイギング②ガンマ圧縮においての
み画像認識のパフォーマンスにクリティカルであった．
この調査をもとに，画像処理⽤画像を得るための新しいセンサシステムを設計した．線
形Analog-to-Digital変換（ADC）量⼦化を，対数ADC量⼦化に置換し，ISPを⾏わな
い．ビット幅を12から5に削減できる．性能に少々の影響のある範囲で75%のエネル
ギー削減に成功した．
・⼤胆にもカメラ上の画像処理の⼤
幅カットを⾏っている．
Links
論⽂:
Buckler_Reconﬁguring_the_Imaging_IC
CV_2017_paper.pdf

Yikang Li, Wanli Ouyang, Bolei Zhou, Kun Wang, Xiaogang Wang, “Scene
Graph Generation from Objects, Phrases and Region Captions”, in ICCV,
2017.
【60】
Keywords: scene graph generation, object recognition, image caption,
新規性・差分
概要
・シーン認識のタスクである物体認識，画像キャプショニ
ング，グラフ⽣成をend-to-endで⾏い，画像を説明する
シーングラフ(右図(c))を⽣成するネットワークの提案．
・物体認識，画像キャプショニングの相互の情報を有効に
活⽤できるMulti-level Scene Description Networkを提
案．
・グラフ⽣成タスク⼿法ではState-of-the-art.
・従来の⼿法と⽐べ3％向上
Links
Code: https://github.com/yikang-li/MSDN

・First Person Video(FPV)からバスケットボール選⼿の
評価を⾏う⼿法の提案
・バスケットボールの評価基準を学習していないにも関わ
らず，実際のプレー動作の評価を正確に⾏うことが可能
Gedas Bertasius, Hyun Soo Park, Stella X. Yu, Jianbo Shi, “Am I a Baller?
Basketball Performance Assessment from First-Person Videos”, in ICCV,
2017.
【61】
Keywords: FPV ,performance assessment, performance evaluation, basketball
新規性・差分
概要
・動作の評価というものは主観的なものであるという問題
点がある→弱教師あり学習により，特定の評価者に好みに
応じたパフォーマンス評価モデルを⽣成
・convolutional LSTM networkを使⽤し，プレーのイベ
ントを検出することが可能
・プレーにおけるプレーの成功，失敗の検出も可能
Links
論⽂:
https://arxiv.org/
pdf/
1611.05365.pdf

“A Generative Model of People in Clothing”, in ICCV2017.
【62】
Keywords:GAN,VAE, semantic segmentation
新規性・差分
概要
・服を着た⼈の3Dモデルは，布の物理的パラメータや⾝体と
⾐服との相互作⽤が課題であり，⼈間の⼊⼒が必須で⼿間が
かかる．本論⽂では別のアプローチとして3Dではなく2Dの
画像ベースのモデル学習とモデルの⾃動⽣成を提案する．⾐
服と⾝体の姿勢との対応を明らかにさせるために，データ
セットと⾝体モデルとの最適化，２段階の⽣成ステップを⾏
うClothNetを提案している．
・Chictopia10Kデータセット[1]とSMPLボディモデルをフィッティン
グさせ，データセットとして強化
・2段階の生成タスク
(1)姿勢ごとの服と身体の部位によるセグメンテーション
(2)セグメンテーションによるテクスチャ予測から，正確な人の外
観モデルを生成(256x256の高解像度）
Links
論⽂:
http://openaccess.thecvf.com/content_ICCV_2017/papers/
Lassner_A_Generative_Model_ICCV_2017_paper.pdf
・(左)SMPLモデルと(右)生成例
(a)基本的にはVAEの構造(lsm) (b)conditionalを導入したthe conditional sketch
module consists of a conditional variational auto-encoder(csm)
(c)画像から画像への変換ネットワーク(生成ではなく変換で，高解像度を達成)
論文中では(a)+(c)をClothNet-full (b)+(c)をClothNet-bodyとしている
1行目-提案手法のユーザー評価
2行目-gland truthのユーザー評価

Turning Corners into Cameras: Principles and Methods
l  コーナー（曲がり⾓）の先の状態を推定
l  ⼊⼒の画像系列からRGB値を強調し，⼈物（もちろんあらゆる物体の状態も可
能）の状態を推定することに成功
l  ２⼈を認識することにも成功
【63】

Anticipating Daily Intention using On-Wrist Motion
Triggered Sensing (Spotlight)
l  腕にモーションセンシングを付け（右下図）⽇常のインテンションを予測する
システムを提案した
l  早めにインテンションを予測できるための新たなRNNベースなネットワークを
提案（左下図）
l  29%の観測データだけで，state-of-artな予測精度を得られた（平均93.69％）
l  2379ビデオを含めている“intention”データセットを提案した
【64】

Rethinking Reprojection: Closing the Loop for Pose-aware
Shape Reconstruction from a Single Image (Spotlight)
l  one-shot RGB画像からpose-awareな3次元形状リコンストラクション⼿法の
提案
l  コアな考え⽅は画像から姿勢と形状を予測し，予測
した姿勢で予測した形状を元の⼊⼒画像に再投影し，再
投影誤差をベースにエラー関数を定義
l  TL-embedding Networkと3D-VAE-GANの構造を
⽤いて学習を⾏った（下図）
l  提案⼿法が従来⼿法より優れた有効性を実験で⽰した
【65】

Beyond Planar Symmetry: Modeling human perception of
reﬂection and rotation symmetries in the wild (Oral)
l  画像から軸対称と回転対称を検出するSym-NETを提案した
l  Sym-NETはVGG/ResNetをベースとしたEnd-to-Endなネットワーク
l  End-to-Endで⾏えるために，離散的なヒューマンラベルから対称性を表した
ヒートマップ⽣成の新たな⼿法を提案した
l  Sym-NETの対称性検出の精度はほかの⼿法より⼤幅に優れている
（CVPR2013対称性コンペティションにおいて優勝）
l  Sym-NETは様々な視点の場合や，遮蔽された環境でもロバストで対称性を検
出可能
【66】

Learning to Reason: End-to-End Module Networks for
Visual Question Answering (Spotlight)
l  従来のparser構造を使わずに⼊⼒されたquestionごとにネットワークレーアウトを予測す
るEnd-to-EndなVisual Question Answeringネットワーク(N2NMNs)を提案
l  ネットワーク構造（下図）はまず⼊⼒された質問からRNNベースな構造でquestion
featureを抽出する．ネットワークレイアウトを “structural”により出⼒する，ま
た，“attentive”によりquestion attentions特徴を抽出する．最後に，”network builder”によ
り⼊⼒されたquestionに応じたネットワークを構築し， questionを回答する．
l  CLEVRデータセットでの実験結果は従来のstate-of-artな⼿法より50%近くのエラー率を
減少できた
【67】

SUBIC: A supervised, structured binary code for image
search (Spotlight)
l  ⼤規模な画像サーチに⽤いられるsupervised-CNNベースな画像の構造的バイナ
リエンコーディング⼿法を提案した
l  提案⼿法はblock-softmax とbatch-based entropy lossesを⽤いることでエン
コーディングの構造性を向上する
l  従来のエンコーディング⼿法より⾼いインスタンスサーチと分類の精度を得ら
れた
【68】

Arbitrary Style Transfer in Real-time with Adaptive
Instance Normalization (Oral)
l  リアルタイムで画像を任意のスタイルに変換できる⼿法を提案した
l  構造的（右上図）にスタイル特徴とコンテンツ特徴の平均と変動をalignできる
AdaIN層を提案した．この層により，スタイル変換の処理スピードが従来⼿法と⽐
べたら，⼤幅に向上できる
l  提案⼿法は前処理が必要無し，従来⼿法の中に最もスピードが速い．また，
ユーザの操作(例:スタイル廃棄，⾊のコントロールなど)にﬂexibleで対応できる．
【69】

Unsupervised Creation of Parameterized Avatars (Oral)
l  顔画像を漫画化するネットワークTOS(Tied Output Synthesis)を提案した
l  TOS(左下図)を⽤いて⼊⼒された顔画像から顔漫画に関するパラメータを計算
し，グラフィックスエンジンにより，計算された顔漫画パラメータから視点や表情
などをレンダリングする．⼊⼒された画像との類似度によりロス関数を定義し，ま
た，教師なし学習が可能
l  提案⼿法により，⼊⼒された顔画像から様々な⾒え⽅をした顔漫画を⽣成でき
る（例：右下図）
【70】

GANs for Biological Image Synthesis (Spotlight)
l  GANを蛍光顕微鏡で撮影できる細胞の画像の⼈⼯⽣成に⽤いる提案
l  ⼀般な画像と違って，蛍光顕微鏡で撮影できる細胞画像は⾊チャンネルを分け
ることにより，細胞の中のマルチタンパク質の位置を検出可能である．そこで，マ
ルチ⾊チャンネルで画像を⽣成できるseperable generator を提案した（左下図）
l  様々な⽣物・医学実験で⽤いられるデータ⽣成の⼀種のアプローチを⽰した
【71】

Neural EPI-volume Networks for Shape from Light Field
(Spotlight)
l  ライトフィールドデータのRGB EPI volume画像から視差情報画像を⽣成する⼿法を提案
した（ライトフィールド画像から3次元情報を復元）
l  ネットワーク構造（左上図）は3D U-ShapeベースのCNNで，また⾼次の情報を守るため，
スキップ構造を⽤いる（左上図の⻘ボックス）
l  従来のSfLF（Shape from Light Field）⼿法より⾼い精度を得られた．提案⼿
法は低計算時間内で⾼精度の視差画像を⽣成できる（三次元復元できる）
【72】

Material Editing Using a Physically Based Rendering
Network (Spotlight)
l  与えられた⽬標画像で画像材質を変換するEnd-to-Endなネットワーク構造提案
l  ネットワーク構造（下図）は⽬標画像からレンダリングに必要な情報（材質，表⾯法線，
イルミネーション）を予測し，それにより⼊⼒画像をレンダリングする．ロス関数は材質ロス
と法線ロスと出⼒画像の視覚ロスなどのコンバインロス
l  提案⼿法を⽤いてstate-of-artな材質変換ができる．需要に応じて部分だけ変化も可能
【73】

Low-shot Visual Recognition by Shrinking and
Hallucinating Features (Spotlight)
l  少ない画像から⾼い精度の識別が⾏えるLow-Shot認識の新たな⼿法を提案
l  ネットワーク構造（下図）は⼤量なデータからのrepresentation学習と少ないデータから
のLow-Shot学習で合成され，新たなrepresentation regularization⼿法とquared gradient
magnitude (SGM)ロス（右下図）を提案した
l  Low-Shot認識にstate-of-artな精度を得られた（左下図）
【74】

A Coarse-Fine Network for Keypoint Localization
(Spotlight)
l  キーポイント検出のマルチレベルsupervisions のネットワーク構造を提案した
l  提案したネットワーク構造（下図）はcoarseとﬁneの2つのstreamによりキー
ポイントを検出し，inferenceの段階で2つのstreamの予測に基づき結果を出⼒
l  提案⼿法が2016 COCO Keypoints Challenge の優勝した⼿法より18%より検
出精度⾼い
【75】

SubUNets: End-to-end Hand Shape and Continuous Sign
Language Recognition (Spotlight)
l  同時に⼿姿勢推定と継続的な⼿話の認識を同時に⾏うEnd-to-Endな⼿法を提案
l  ⼿姿勢推定と⼿話認識のタスクをいくつかのサブネットSubUNetsに分解して
⾏う．SubUNetsで⾏うことで提案⼿法が有効的なdomain-speciﬁc expertを導⼊
できる．また，移転学習も可能なので，様々なデータセットで学習可能
l  従来の⼿法より精度⼤幅に向上した（右図）
【76】

Binarized Convolutional Landmark Localizers for Human
Pose Estimation and Face Alignment with Limited
Resources (Oral)
l  ヒューマンポーズ推定と顔アライメントタスクに適した新たなブロック構造を
提案した（右下図），提案構造は制限された計算資源の元でもいい精度を得られる
l  従来のResNet block（右下図）に変更を加え，階層的でマルチスケールな
residual構造を提案した．従来構造と⽐べ，receptive ﬁeldが拡⼤し，gradient
ﬂowが向上でき，パラメータ量がほぼ変わらずに性能が向上できる（右上図）
l  様々な⽐較実験を通し，提案ブロックが従来より向上することを⽰した
【77】

Learning Discriminative Aggregation Network for Video-
based Face Recognition （Spotlight）
l  ビデオから顔認識のためのdiscriminative aggregation network (DAN)を提案
した.提案⼿法が有効かつ効率的にビデオフレームから情報を整合できる
l  提案⼿法のコアな考えはmetric learningとadversarial learningをベースな
ネットワーク（右下図）でビデオフレームからクラス間の内分散が⼤きくクラス内
分散が⼩さい顔画像を⽣成し，⽣成画像を⽤いて特徴抽出と識別を⾏う
l  従来⼿法と⽐べたら提案⼿法がstate-of-artな精度を得た同時に⼤幅に速い
【78】

RPAN: An End-to-End Recurrent Pose-Attention Network
for Action Recognition in Videos （Oral）
l  ビデオから⾏動認識のrecurrent pose-attention network (RPAN)を提案した
l  関節間にpose-attentionパラメータを共有し，ロバストでhuman-partを学習
l  また，⾏動予測のRNNタイムステップごとに適応的に姿勢相関の特徴を学習する，姿勢の
特徴を⾏動認識に⽤いる
l  提案⼿法がビデオから同時に姿勢を予測できる，この結果を様々な場⾯で応⽤できる
（例：ビデオから姿勢のアノテーションデータ⽣成）．Sub-JHMDB とPennActionデータ
セットでstate-of-artな精度達成
【79】

Video Frame Synthesis using Deep Voxel Flow （Oral）
l  ビデオからビデオフレーム（ビデオ間・後）を予測する⼿法を提案した
l  提案⼿法が無監督でEnd-to-Endで学習可能．従来⼿法と⽐べて，提案⼿法はビ
デオ序列からピクセルを⽣成フレームにﬂow（コピー）するネットワークを提案
l  提案⼿法は任意種類のビデオに対応可能，また異なる解像度のビデオにも対応
可能．UCF-101 とTHUMOS-15データセットを⽤いてビデオ予測実験でstate-of-
artなパフォーマンスを得られた(PSNRとSSIM)
【80】

EnhanceNet: Single Image Super-Resolution Through
Automated Texture Synthesis （Oral）
l  ⼊⼒画像からsuper-resolution画像を⽣成する（⾃動テクスチャー⽣成）⼿法
を提案した
l  提案⼿法のネットワーク構造（左下図）はfully convolutionalで，⼊⼒画像の
bicubic interpolation と⾼解像度間のresidualを学習する．従来の⼿法と⽐べ，
adversarial トレーニングと視覚誤差計算を導⼊することで，精度よく⾼解像度画
像を⽣成できる
l  定量的（PSNR 値評価）と定性的（ヒューマンテスト）実験でstate-of-artな結
果を得られた
【81】

Makeup-Go: Blind Reversion of Portrait Edit （Oral）
l  顔画像をアプリで修正する操作に対して，修正後の画像を元の画像に復元する
⼿法を提案した．また，肌の平滑化と⾊調整などの修正を対象としている
l  Component Regression Network (CRN)（下図）を提案した．顔画像復元す
るタスクにあたってcomponent dominationの影響が⼤きいことを分析した（左上
図），そのため，component-basedなネットワーク構造を提案し，ネットワーク
をサブネットに分解し，componentごとに復元を⾏い，最後に統合する
l  定量的及び定性的実験により，state-of-artな結果を得られた
【82】

Weakly- and Self-Supervised Learning for Content-Aware
Deep Image Retargeting （Spotlight）
l  弱・⾃⼰監督CNNを⽤いたcontentawareなimage retargeting（重要な内容を守りながら画像をリサイ
ズ）⼿法を提案した
l  ネットワーク構造（下図）がまずEncoder-Decoderにより，画像のattentionを学習，そして要求され
た⽐例で画像をcontents-awareでshift層（右上図）によりshift-mapを⽣成する．学習の段階，元の画像の
パーツと⽣成画像のコンテンツロス及び中間層の画像と要求された画像⽐例間の構造ロスを⽤いる
l  ヒューマンテストで，提案⼿法を⽤いたimage retargeting（画像リサイズ）が最評価された
【83】

Attribute-Enhanced Face Recognition with Neural Tensor
Fusion Networks （Spotlight）
l  Deep Learningによる顔画像認識は、様々な姿勢からの認識にも応⽤できる強
固な特徴を抽出することが難しかった。
l  そこで、特徴をまとめて最適化するフレームワークを開発した。これは画像と
特徴を⼊⼒して、それらを結合して予測を⾏う仕組みのネットワークである。そこ
に影響⼒は⾼いが不安定な特徴のFRFと、安定しているものの影響⼒の低い特徴で
あるFAFを融合させて認識タスクを実⾏した。
l  顔画像認識のデータセット、CASIA NIRVIS 2.0において、最⾼の成果を挙げる
ことに成功した。
【84】

Recursive Spatial Transformer (ReST) for Alignment-Free
Face Recognition （Spotlight）
l  顔画像の認識を⾏うには、姿勢や照明といった多様な要素を考慮する必要があ
るが、画⼀的な⼿法は未だ提案されていない。
l  そこで、ReSTというアプローチをCNNの前処理として導⼊した。これは検出さ
れた顔画像をもとに少しずつ変換を⾏い、最適化された画像をCNNに⼊⼒する。
さらに、ReSTを階層的に組み合わせたHiReSTという⼿法も試みた。
l  LFWというデータセットを使った認識タスクで、HiReSTが既存の⼿法よりも優
れた成果を⽰した。
【85】

MoFA: Model-based Deep Convolutional Face
Autoencoder for Unsupervised Monocular Reconstruction
（Oral）
l  2Dの顔画像から３DのCGモデルを⽣成するタスクは、⻑年の課題であった。近年は
DeepCNNを⽤いたオートエンコーダモデルがよく⽤いられるが、これまでラベル付きデータ
を⽤いた教師あり学習によるものが提案されていた。
l  そこで、教師なし学習によるモデルを提案した。誤差関数は⼊⼒画像の特徴点から⽣成す
ることで、ラベルなしのデータにも適⽤できるようになっている。
l  3DMMなどのタスクにおいて、ベースラインより優れた成果を挙げたが、先⾏研究の教師
あり学習には届かないケースも⾒られた。しかし、教師なしで顔の特徴を抽出できたという点
では将来性が認められれる。
【86】

Unlabeled samples Generated by GAN Improve the
Person Re-identiﬁcation Baseline in vitro （Spotlight）
l  教師あり学習の訓練データをGANによって⽔増しする⽅法を提案する。
l  まずはラベル付きの学習データから、GANによってラベルなしの学習データを
⽣成する。そして、それらのデータに対してLSROという⼿法で仮想的なラベル付
けを⾏う。仮想ラベルがペナルティとして働くことで、オーバーフィッティングの
対策となることが期待される。
l  ベースラインのDCGANモデルを使⽤して、不完全なGAN画像が教師あり学習の
訓練に使われたときに、効果的な正規化能⼒を⽰した。
【87】

Synergy between face alignment and tracking via
Discriminative Global Consensus Optimization
（Spotlight）
l  ビデオにおける顔⾯ランドマークのローカリゼーションにおける未解決の問題
は、トラッキングと、トラッキングバイ検出（すなわち、顔の位置合わせ）にはそ
れぞれ⽋点があるという事である
l  ADMM を⽤いて⼀致性の最適化を⾏う。DGCMの反復ごとに、各々のADMMを
更新する
l  ビデオのADMMを⽤いたグローバル変数コンセンサス最適化の原則的な枠組み
に基づいて、顔のアラインメントと追跡との相乗効果を達成する⽅法を提案。顔の
整列と追跡のための最新の識別⽅法と提案された定式化の統合⽅法の掲⽰
【88】

SVDNet for Pedestrian Retrieval（Spotlight）
l  SVDNetは、様々な重みベクトルを使⽤している。重みベクトルは、多くの場合
相関関係が⾼く、そのためにユーグリット距離を⽤いた検索性能に問題が⽣じてい
る
l  SVDNetを⽤いて、特異ベクトルを⽤いた深層表現学習過程を分解する。無相
関の投影ベクトルで、歩⾏者や再識別の学習を⾏った。この反復のよって、ベクト
ルの相関は徐々に減少した。
l  相関が排除された結果、ユーグリット距離の検索がより効⼒を発揮し、識別精
度を⼤きく上昇させることに成功した。繰り返し実⾏することで、安定した精度に
達する
【89】

Stoward More Accurate Iris Recongnition Using Deeply
Learned Spatially Corresponding Features（Spotlight）
l  空間的に対応する虹彩特徴を⽣成するFCNに基づいた、虹彩認識のための学習フ
レームワークを提案する
l  このモデルは、優れた汎化能⼒があり、本質的ではないデータベース固有のパラ
メータ調整が必要ないというのが、他の⼿法に⽐べて優れた利点である。
l  今回作成した拡張トリプレット損失機能は、学習のための効果的な教師データを
提供する。今後は、深いネットワークのirisマスクの学習に焦点を当てることで、
空間に対応する特徴をさらに利⽤することができ、より正確な⾊彩認識が出来る
【90】

BB8: A Scalable, Accurate, Robust to Partial
OcclusionMethod for Predicting the 3D Poses of
Challenging Objects without Using Depth（Spotlight）
l  3次元物体検出のための、⾊画像のみから推定を⾏うという新しい⽅法を提案す
る。最初に、背景に関わらず、写っている物体毎にセグメンテーションする。
l  CNNを⽤いて各３次元物体を分類する。同じ種類のものが異なる格好をしてい
る場合には認識が難しいという問題があるが、使⽤する格好の範囲を制限すること
でこの問題を解決した。
l  この全体的なアプローチは、T-LESSデータセットにおいて、カラー画像から3D
の姿勢推定の精度を⼤幅に進歩させた。
【91】

Focal Loss for Dense Object Detection
l  One-stageの物体検出⼿法の精度を向上させるためのFocal Lossを提案
l  One-stageだとPositiveとNegativeのバランスが悪いのが問題
l  識別できているサンプル (⼤量にある簡単な背景クラス) のLossを⼩さく設計
l  Feature Pyramid Netを使う検出⼿法RetinaNetも新規に提案
【92】

Curriculum Dropout
l  Dropout Ratioを段階的に下げていく Carriculum Dropoutを提案
l  通常のDropoutよりも多くのデータで効果的に働くことを確認
【93】

ご質問・コメント等ありましたら，cvpaper.challenge@gmail.com / Twitter@CVPaperChallengまでお願いします．

ICCV 2017 速報

More Related Content

What's hot

Viewers also liked

Similar to ICCV 2017 速報

ICCV 2017 速報