CVPR2017 参加報告速報版本会議3日目

CVPR2017参加報告
(速報版・三日目）
2017.7.24(現地時間)
@a_hasimoto

このスライドについて
1. 本会議での発表の内容を
2. 印象に残ったものだけ
3. その時の印象と，あとでのreferenceをたどるために
メモしたものです．
9/18(月・祝)，関西CVPRML勉強会にて，解説を予定．
→ https://twitter.com/kansaicvprml
私の理解が深まるので，勘違いの指摘や質問，リンクの紹介，そ
の他議論大歓迎．

三日目総評
• 今日は午前中だけ．
• 人が少ないことを見越したのか，Deep Learningではない研究（3D
visionやPhotometry，クラスタリングなど）がこの日に集められてい
る印象→ Organizerの悪意を若干，というか結構感じてしまう．
• Deep Learning関連でも，余り面白いものが少ない？
• Clusteringについては，Deep Learning旋風は吹き荒れていな
い．
• ただし，前提知識が無いとoralの長い発表でも数式を追えず，全然わ
からない(><)
• Subspace Clusteringばかり．まぁ，当然か．
• CNNの大域解への収束に関する面白い研究が一番印象に残った．

会議のBooklet無くしました(T T)
• 昨日までと違って，計画的に回れていません．
• ポスターに関してのメモ（手書きだった）なども残せていませ
ん(><)
• 昨日までの内容をこっちに残しておいて良かった．

夕方にCaffe2のmeetupイベントが有った
• 言ったら，宣伝ばかりで，実装してみよう，とかは無かった．
• 主な特徴
• PC間の通信の最適化→台数を増やしても効率が落ちにくい(90%程度を
保持）
• 専用のハードウェアは不要．安価なGPUをたくさんつなげて大量の
データを処理できる．
• 16bit浮動小数点数に対応(普通は32bit）→モデルサイズやメモリ消費
を効率化．binaryと違って，精度も維持できる！
• NvidiaのTensorRTも使ってね☆
• 学習済みのモデルをHWに合わせて最適化したりできる！
→組み込みの製品化に非常に役立つ！

Global Optimality in Neural Network
Training, Benjamin D. Haeffele, René Vidal
• みんな不思議に思ってる: なんでdeep learning 動くの?
• 局所解に落ちないの？
• 最適化と汎化とアーキテクチャ(ネットの構造)は互いに関係し
ているはず．
• ネットの構造で，最適化のしやすさ/しにくさってあるの？
• 大事なのは下記の3つだ，という論文．
• positive homogeneity: sigmoid layer以外は大体なんでも成り立つ．
• parallel subnetworks: まぁ，成り立つよね．
• Weight Decay: positive homogeneityとregularizationのそれぞれのス
ケール（詳細は図が無いと説明しにくい）が合っていないと良くない．

Compact Matrix Factorization With Dependent
Subspaces, Viktor Larsson, Carl Olsson Program
• rankベースのMF→missing dataに強い．SfMとかに重要．
• low-rank embedding が当たり前になってきた印象．
• matrixがpoint trajectoriesを含むとき．
• シーンが複雑であるほどrankが高くなる．
• 一方で，設定したrankが高すぎるとoverfitting
• 行列のrankを上手く決めることが大事．
• point trajectoriesは複数のsubspaceに分布する，と仮定．
• union-of-subspace(subspaceの分布するsubspaceみたいなも
の?)に対してもrankの拘束をいれるといい感じになる
• missing dataがない場合は普通にやった方が誤差が少ない???
• Compact matrix factorization
• overparametrizationを避けながらmissingデータに対処できる．

Age Progression/Regression by Conditional
Adversarial Autoencoder
Zhifei Zhang, Yang Song, Hairong Qi
• 従来手法は，Age groupに分けて，labelとして年齢を推定（回
帰でも良いと思うけれど)→ Group-wised learning．←これは
しない．
• Manifold Traversing
• 人の顔の経年変化を学習して，任意の顔について経年変化を
GANで生成させる.
• 年齢推定は下記の手順?詳細は発表やポスターでは不明
1. 推定対象人物の各年代として予測される顔を生成
2. 入力に一番近い顔を選ぶ．
• 人毎の経年変化のしかたの違いがモデルに組み込まれている
→従来より良い．
• 印象としては問題の難しさに対してオーバーキル…

On the Global Geometry of Sphere-Constrained
Sparse Blind Deconvolution
Yuqian Zhang et al.
• 顕微鏡画像とかでは特にdeblurは重要．
• The activation signals are sparse (細胞とかエッジとかそうい
うの(?) )
• motion blurではなく，ボケですね．
• symmetric solution creates a local optima
• 議論から落ちた…わかりません…．

Probabilistic Temporal Subspace Clustering,
Behnam Gholami, Vladimir Pavlovic Clustering Time Series Data
• Subspace Clustering: 同じsubspaceに属する→同じクラスタ
• Time Dependency: ガウス分布
• Number of Subspaces: stick-breaking process
• Dimensionality: Beta-Bernoulli Process
• Missing data: Marginalization
• 肝心な部分を聴き逃しました…，むぅ．集中力が落ちてきています．
• Mocap Datasetで実験
• Missing Dataに対しても良いパフォーマンス．

Provable Self-Representation Based Outlier
Detection in a Union of Subspaces,
Chong You, Daniel P. Robinson, René Vidal
• 同じくSubspace クラスタリング．
• Outlierが面倒くさい．
• outlierを一つのsubspaceに押し込める！←あれ？？
• Computer self-representation
• inlierは顔，outliersは顔以外
• 多分，問題として簡単すぎるので，査読がちょっとゆるくない？
# 自分はoutlier detection + クラスタ数推定で，これより上手く動き
そうなのに落とされたので不満がある…．
• random walkで，ぐるぐる廻れるならinlier
• outlierでもinlierに近ければグルグル回れそうなのだが，詳細不明．

Learning to Extract Semantic Structure From
Documents Using Multimodal Fully
Convolutional Neural Networks Xiao Yang et al.
• 文書画像をブロックや見出しなどの領域に分ける．
• Text Embedding Mapというものを作成し，最終層(FC)の前に
追加．
• 一方で，手前の方で分岐しておいて，元の画像を復元するよう
に学習（←predictの時は使わない）
• 実装自体は，論文の図を見れば一発でわかる．

FFTLasso: Large-Scale LASSO in the Fourier
Domain
Adel Bibi, Hani Itani, Bernard Ghanem
• L1正則化の計算
• 提案手法は計算時間が早い
• 計算量的には O(m^3)→O(mnlog m)
• m^2 > n log m なら早い．正方行列はこれを満たす．n^2>n log n?
• 計算量の理論値に対して，実験結果から得られる，実際の速度
の改善幅が小さいようにも見える．
• コード: https://github.com/adelbibi/FFTLasso

ポスターまで記述するのは力尽きました
• 希望があれば関西CVPRML勉強会で解説．
• 良く見て聴いてきたリスト（面白いと思ったもののみ掲載）
• Deeply Supervised Salient Object Detection with Short Connections, Qibin Hou, Ming-
Ming Cheng, Xiaowei Hu, Ali Borji, Zhuowen Tu, Philip Torr
• 抽象度の高い層のfeature mapを浅い層のfeature mapにくっつけて(short connections)，各層でsaliency
mapを作成し，それらのmapをlinear sumすると良い結果を得られるらしい．
• 抽象度が高すぎると物体のディテールが失われる?，ということだと思う．
• それぞれの層の寄与度がよくわからないから，本当にそれが利いているのかポスターからも，質問しても，
よくわからなかった．
• Learning Cross-Modal Deep Representations for Robust Pedestrian Detection, Dan Xu,
Wanli Ouyang, Elisa Ricci, Xiaogang Wang, Nicu Sebe
• 可視光画像と温度画像のデータを相互に利用して，それぞれのセンサが苦手なところを，補うような学習
ができる→RGB画像のみでの精度があがる．
• Annotating Object Instances with a Polygon-RNN, Lluís Castrejón, Kaustav Kundu, Raquel
Urtasun, Sanja Fidler [Best Paper Honorable Mention Awards]
• 詳細な領域形状のアノテーションを楽にするために，物体を囲むPolygonの編集点をRNNで出力するような学習を行った
• 人間がacceptableなレベル(どうやって決めた??)まで精度が出た

続き
• 希望があれば関西CVPRML勉強会で解説
• 良く見て聴いてきたリスト（面白いと思ったもののみ掲載）
• Online Graph Completion: Multivariate Signal Recovery in Computer Vision, Won Hwa Kim,
Mona Jalal, Seongjae Hwang, Sterling C. Johnson, Vikas Singh
• グラフ信号処理を利用しているように思える．
• 点群の欠損を上手く保管しているみたい．
• やはり，グラフ信号処理の勉強が足りない…．
• A Message Passing Algorithm for the Minimum Cost Multicut Problem, Paul Swoboda,
Bjoern Andres
• 普通のgraph cutはグラフを2つにしか分けられない．multicut(3つ以上に分ける)はNP-hard
• 近似非(lower bound)などの詳細がポスターにはなかったが，linearで動くらしい．
• Depth from Defocus in the Wild, Huixuan Tang, Scott Cohen, Brian Price, Stephen Schiller,
Kiriakos N. Kutulakos
• 手法の詳細は不明だが，CNN使ってない！？しかし，かなり出来ていそうだった．スマホ画像に対して動作さ
せていた模様．一見すると，そこまでdefocusが目立つようには見えない画像．

CVPR2017 参加報告 速報版 本会議3日目

More Related Content

What's hot

Similar to CVPR2017 参加報告 速報版 本会議3日目

More from Atsushi Hashimoto