CVPR2017参加報告
(速報版・三日目)
2017.7.24(現地時間)
@a_hasimoto
このスライドについて
1. 本会議での発表の内容を
2. 印象に残ったものだけ
3. その時の印象と,あとでのreferenceをたどるために
メモしたものです.
9/18(月・祝),関西CVPRML勉強会にて,解説を予定.
→ https://twitter.com/kansaicvprml
私の理解が深まるので,勘違いの指摘や質問,リンクの紹介,そ
の他議論大歓迎.
三日目総評
• 今日は午前中だけ.
• 人が少ないことを見越したのか,Deep Learningではない研究(3D
visionやPhotometry,クラスタリングなど)がこの日に集められてい
る印象→ Organizerの悪意を若干,というか結構感じてしまう.
• Deep Learning関連でも,余り面白いものが少ない?
• Clusteringについては,Deep Learning旋風は吹き荒れていな
い.
• ただし,前提知識が無いとoralの長い発表でも数式を追えず,全然わ
からない(><)
• Subspace Clusteringばかり.まぁ,当然か.
• CNNの大域解への収束に関する面白い研究が一番印象に残った.
会議のBooklet無くしました(T T)
• 昨日までと違って,計画的に回れていません.
• ポスターに関してのメモ(手書きだった)なども残せていませ
ん(><)
• 昨日までの内容をこっちに残しておいて良かった.
夕方にCaffe2のmeetupイベントが有った
• 言ったら,宣伝ばかりで,実装してみよう,とかは無かった.
• 主な特徴
• PC間の通信の最適化→台数を増やしても効率が落ちにくい(90%程度を
保持)
• 専用のハードウェアは不要.安価なGPUをたくさんつなげて大量の
データを処理できる.
• 16bit浮動小数点数に対応(普通は32bit)→モデルサイズやメモリ消費
を効率化.binaryと違って,精度も維持できる!
• NvidiaのTensorRTも使ってね☆
• 学習済みのモデルをHWに合わせて最適化したりできる!
→組み込みの製品化に非常に役立つ!
Global Optimality in Neural Network
Training, Benjamin D. Haeffele, René Vidal
• みんな不思議に思ってる: なんでdeep learning 動くの?
• 局所解に落ちないの?
• 最適化と汎化とアーキテクチャ(ネットの構造)は互いに関係し
ているはず.
• ネットの構造で,最適化のしやすさ/しにくさってあるの?
• 大事なのは下記の3つだ,という論文.
• positive homogeneity: sigmoid layer以外は大体なんでも成り立つ.
• parallel subnetworks: まぁ,成り立つよね.
• Weight Decay: positive homogeneityとregularizationのそれぞれのス
ケール(詳細は図が無いと説明しにくい)が合っていないと良くない.
Compact Matrix Factorization With Dependent
Subspaces, Viktor Larsson, Carl Olsson Program
• rankベースのMF→missing dataに強い.SfMとかに重要.
• low-rank embedding が当たり前になってきた印象.
• matrixがpoint trajectoriesを含むとき.
• シーンが複雑であるほどrankが高くなる.
• 一方で,設定したrankが高すぎるとoverfitting
• 行列のrankを上手く決めることが大事.
• point trajectoriesは複数のsubspaceに分布する,と仮定.
• union-of-subspace(subspaceの分布するsubspaceみたいなも
の?)に対してもrankの拘束をいれるといい感じになる
• missing dataがない場合は普通にやった方が誤差が少ない???
• Compact matrix factorization
• overparametrizationを避けながらmissingデータに対処できる.
Age Progression/Regression by Conditional
Adversarial Autoencoder
Zhifei Zhang, Yang Song, Hairong Qi
• 従来手法は,Age groupに分けて,labelとして年齢を推定(回
帰でも良いと思うけれど)→ Group-wised learning.←これは
しない.
• Manifold Traversing
• 人の顔の経年変化を学習して,任意の顔について経年変化を
GANで生成させる.
• 年齢推定は下記の手順?詳細は発表やポスターでは不明
1. 推定対象人物の各年代として予測される顔を生成
2. 入力に一番近い顔を選ぶ.
• 人毎の経年変化のしかたの違いがモデルに組み込まれている
→従来より良い.
• 印象としては問題の難しさに対してオーバーキル…
On the Global Geometry of Sphere-Constrained
Sparse Blind Deconvolution
Yuqian Zhang et al.
• 顕微鏡画像とかでは特にdeblurは重要.
• The activation signals are sparse (細胞とかエッジとかそうい
うの(?) )
• motion blurではなく,ボケですね.
• symmetric solution creates a local optima
• 議論から落ちた…わかりません….
Probabilistic Temporal Subspace Clustering,
Behnam Gholami, Vladimir Pavlovic Clustering Time Series Data
• Subspace Clustering: 同じsubspaceに属する→同じクラスタ
• Time Dependency: ガウス分布
• Number of Subspaces: stick-breaking process
• Dimensionality: Beta-Bernoulli Process
• Missing data: Marginalization
• 肝心な部分を聴き逃しました…,むぅ.集中力が落ちてきています.
• Mocap Datasetで実験
• Missing Dataに対しても良いパフォーマンス.
Provable Self-Representation Based Outlier
Detection in a Union of Subspaces,
Chong You, Daniel P. Robinson, René Vidal
• 同じくSubspace クラスタリング.
• Outlierが面倒くさい.
• outlierを一つのsubspaceに押し込める!←あれ??
• Computer self-representation
• inlierは顔,outliersは顔以外
• 多分,問題として簡単すぎるので,査読がちょっとゆるくない?
# 自分はoutlier detection + クラスタ数推定で,これより上手く動き
そうなのに落とされたので不満がある….
• random walkで,ぐるぐる廻れるならinlier
• outlierでもinlierに近ければグルグル回れそうなのだが,詳細不明.
Learning to Extract Semantic Structure From
Documents Using Multimodal Fully
Convolutional Neural Networks Xiao Yang et al.
• 文書画像をブロックや見出しなどの領域に分ける.
• Text Embedding Mapというものを作成し,最終層(FC)の前に
追加.
• 一方で,手前の方で分岐しておいて,元の画像を復元するよう
に学習(←predictの時は使わない)
• 実装自体は,論文の図を見れば一発でわかる.
FFTLasso: Large-Scale LASSO in the Fourier
Domain
Adel Bibi, Hani Itani, Bernard Ghanem
• L1正則化の計算
• 提案手法は計算時間が早い
• 計算量的には O(m^3)→O(mnlog m)
• m^2 > n log m なら早い.正方行列はこれを満たす.n^2>n log n?
• 計算量の理論値に対して,実験結果から得られる,実際の速度
の改善幅が小さいようにも見える.
• コード: https://github.com/adelbibi/FFTLasso
ポスターまで記述するのは力尽きました
• 希望があれば関西CVPRML勉強会で解説.
• 良く見て聴いてきたリスト(面白いと思ったもののみ掲載)
• Deeply Supervised Salient Object Detection with Short Connections, Qibin Hou, Ming-
Ming Cheng, Xiaowei Hu, Ali Borji, Zhuowen Tu, Philip Torr
• 抽象度の高い層のfeature mapを浅い層のfeature mapにくっつけて(short connections),各層でsaliency
mapを作成し,それらのmapをlinear sumすると良い結果を得られるらしい.
• 抽象度が高すぎると物体のディテールが失われる?,ということだと思う.
• それぞれの層の寄与度がよくわからないから,本当にそれが利いているのかポスターからも,質問しても,
よくわからなかった.
• Learning Cross-Modal Deep Representations for Robust Pedestrian Detection, Dan Xu,
Wanli Ouyang, Elisa Ricci, Xiaogang Wang, Nicu Sebe
• 可視光画像と温度画像のデータを相互に利用して,それぞれのセンサが苦手なところを,補うような学習
ができる→RGB画像のみでの精度があがる.
• Annotating Object Instances with a Polygon-RNN, Lluís Castrejón, Kaustav Kundu, Raquel
Urtasun, Sanja Fidler [Best Paper Honorable Mention Awards]
• 詳細な領域形状のアノテーションを楽にするために,物体を囲むPolygonの編集点をRNNで出力するような学習を行った
• 人間がacceptableなレベル(どうやって決めた??)まで精度が出た
続き
• 希望があれば関西CVPRML勉強会で解説
• 良く見て聴いてきたリスト(面白いと思ったもののみ掲載)
• Online Graph Completion: Multivariate Signal Recovery in Computer Vision, Won Hwa Kim,
Mona Jalal, Seongjae Hwang, Sterling C. Johnson, Vikas Singh
• グラフ信号処理を利用しているように思える.
• 点群の欠損を上手く保管しているみたい.
• やはり,グラフ信号処理の勉強が足りない….
• A Message Passing Algorithm for the Minimum Cost Multicut Problem, Paul Swoboda,
Bjoern Andres
• 普通のgraph cutはグラフを2つにしか分けられない.multicut(3つ以上に分ける)はNP-hard
• 近似非(lower bound)などの詳細がポスターにはなかったが,linearで動くらしい.
• Depth from Defocus in the Wild, Huixuan Tang, Scott Cohen, Brian Price, Stephen Schiller,
Kiriakos N. Kutulakos
• 手法の詳細は不明だが,CNN使ってない!?しかし,かなり出来ていそうだった.スマホ画像に対して動作さ
せていた模様.一見すると,そこまでdefocusが目立つようには見えない画像.

CVPR2017 参加報告 速報版 本会議3日目

  • 1.
  • 2.
    このスライドについて 1. 本会議での発表の内容を 2. 印象に残ったものだけ 3.その時の印象と,あとでのreferenceをたどるために メモしたものです. 9/18(月・祝),関西CVPRML勉強会にて,解説を予定. → https://twitter.com/kansaicvprml 私の理解が深まるので,勘違いの指摘や質問,リンクの紹介,そ の他議論大歓迎.
  • 3.
    三日目総評 • 今日は午前中だけ. • 人が少ないことを見越したのか,DeepLearningではない研究(3D visionやPhotometry,クラスタリングなど)がこの日に集められてい る印象→ Organizerの悪意を若干,というか結構感じてしまう. • Deep Learning関連でも,余り面白いものが少ない? • Clusteringについては,Deep Learning旋風は吹き荒れていな い. • ただし,前提知識が無いとoralの長い発表でも数式を追えず,全然わ からない(><) • Subspace Clusteringばかり.まぁ,当然か. • CNNの大域解への収束に関する面白い研究が一番印象に残った.
  • 4.
    会議のBooklet無くしました(T T) • 昨日までと違って,計画的に回れていません. •ポスターに関してのメモ(手書きだった)なども残せていませ ん(><) • 昨日までの内容をこっちに残しておいて良かった.
  • 5.
    夕方にCaffe2のmeetupイベントが有った • 言ったら,宣伝ばかりで,実装してみよう,とかは無かった. • 主な特徴 •PC間の通信の最適化→台数を増やしても効率が落ちにくい(90%程度を 保持) • 専用のハードウェアは不要.安価なGPUをたくさんつなげて大量の データを処理できる. • 16bit浮動小数点数に対応(普通は32bit)→モデルサイズやメモリ消費 を効率化.binaryと違って,精度も維持できる! • NvidiaのTensorRTも使ってね☆ • 学習済みのモデルをHWに合わせて最適化したりできる! →組み込みの製品化に非常に役立つ!
  • 6.
    Global Optimality inNeural Network Training, Benjamin D. Haeffele, René Vidal • みんな不思議に思ってる: なんでdeep learning 動くの? • 局所解に落ちないの? • 最適化と汎化とアーキテクチャ(ネットの構造)は互いに関係し ているはず. • ネットの構造で,最適化のしやすさ/しにくさってあるの? • 大事なのは下記の3つだ,という論文. • positive homogeneity: sigmoid layer以外は大体なんでも成り立つ. • parallel subnetworks: まぁ,成り立つよね. • Weight Decay: positive homogeneityとregularizationのそれぞれのス ケール(詳細は図が無いと説明しにくい)が合っていないと良くない.
  • 7.
    Compact Matrix FactorizationWith Dependent Subspaces, Viktor Larsson, Carl Olsson Program • rankベースのMF→missing dataに強い.SfMとかに重要. • low-rank embedding が当たり前になってきた印象. • matrixがpoint trajectoriesを含むとき. • シーンが複雑であるほどrankが高くなる. • 一方で,設定したrankが高すぎるとoverfitting • 行列のrankを上手く決めることが大事. • point trajectoriesは複数のsubspaceに分布する,と仮定. • union-of-subspace(subspaceの分布するsubspaceみたいなも の?)に対してもrankの拘束をいれるといい感じになる • missing dataがない場合は普通にやった方が誤差が少ない??? • Compact matrix factorization • overparametrizationを避けながらmissingデータに対処できる.
  • 8.
    Age Progression/Regression byConditional Adversarial Autoencoder Zhifei Zhang, Yang Song, Hairong Qi • 従来手法は,Age groupに分けて,labelとして年齢を推定(回 帰でも良いと思うけれど)→ Group-wised learning.←これは しない. • Manifold Traversing • 人の顔の経年変化を学習して,任意の顔について経年変化を GANで生成させる. • 年齢推定は下記の手順?詳細は発表やポスターでは不明 1. 推定対象人物の各年代として予測される顔を生成 2. 入力に一番近い顔を選ぶ. • 人毎の経年変化のしかたの違いがモデルに組み込まれている →従来より良い. • 印象としては問題の難しさに対してオーバーキル…
  • 9.
    On the GlobalGeometry of Sphere-Constrained Sparse Blind Deconvolution Yuqian Zhang et al. • 顕微鏡画像とかでは特にdeblurは重要. • The activation signals are sparse (細胞とかエッジとかそうい うの(?) ) • motion blurではなく,ボケですね. • symmetric solution creates a local optima • 議論から落ちた…わかりません….
  • 10.
    Probabilistic Temporal SubspaceClustering, Behnam Gholami, Vladimir Pavlovic Clustering Time Series Data • Subspace Clustering: 同じsubspaceに属する→同じクラスタ • Time Dependency: ガウス分布 • Number of Subspaces: stick-breaking process • Dimensionality: Beta-Bernoulli Process • Missing data: Marginalization • 肝心な部分を聴き逃しました…,むぅ.集中力が落ちてきています. • Mocap Datasetで実験 • Missing Dataに対しても良いパフォーマンス.
  • 11.
    Provable Self-Representation BasedOutlier Detection in a Union of Subspaces, Chong You, Daniel P. Robinson, René Vidal • 同じくSubspace クラスタリング. • Outlierが面倒くさい. • outlierを一つのsubspaceに押し込める!←あれ?? • Computer self-representation • inlierは顔,outliersは顔以外 • 多分,問題として簡単すぎるので,査読がちょっとゆるくない? # 自分はoutlier detection + クラスタ数推定で,これより上手く動き そうなのに落とされたので不満がある…. • random walkで,ぐるぐる廻れるならinlier • outlierでもinlierに近ければグルグル回れそうなのだが,詳細不明.
  • 12.
    Learning to ExtractSemantic Structure From Documents Using Multimodal Fully Convolutional Neural Networks Xiao Yang et al. • 文書画像をブロックや見出しなどの領域に分ける. • Text Embedding Mapというものを作成し,最終層(FC)の前に 追加. • 一方で,手前の方で分岐しておいて,元の画像を復元するよう に学習(←predictの時は使わない) • 実装自体は,論文の図を見れば一発でわかる.
  • 13.
    FFTLasso: Large-Scale LASSOin the Fourier Domain Adel Bibi, Hani Itani, Bernard Ghanem • L1正則化の計算 • 提案手法は計算時間が早い • 計算量的には O(m^3)→O(mnlog m) • m^2 > n log m なら早い.正方行列はこれを満たす.n^2>n log n? • 計算量の理論値に対して,実験結果から得られる,実際の速度 の改善幅が小さいようにも見える. • コード: https://github.com/adelbibi/FFTLasso
  • 14.
    ポスターまで記述するのは力尽きました • 希望があれば関西CVPRML勉強会で解説. • 良く見て聴いてきたリスト(面白いと思ったもののみ掲載) •Deeply Supervised Salient Object Detection with Short Connections, Qibin Hou, Ming- Ming Cheng, Xiaowei Hu, Ali Borji, Zhuowen Tu, Philip Torr • 抽象度の高い層のfeature mapを浅い層のfeature mapにくっつけて(short connections),各層でsaliency mapを作成し,それらのmapをlinear sumすると良い結果を得られるらしい. • 抽象度が高すぎると物体のディテールが失われる?,ということだと思う. • それぞれの層の寄与度がよくわからないから,本当にそれが利いているのかポスターからも,質問しても, よくわからなかった. • Learning Cross-Modal Deep Representations for Robust Pedestrian Detection, Dan Xu, Wanli Ouyang, Elisa Ricci, Xiaogang Wang, Nicu Sebe • 可視光画像と温度画像のデータを相互に利用して,それぞれのセンサが苦手なところを,補うような学習 ができる→RGB画像のみでの精度があがる. • Annotating Object Instances with a Polygon-RNN, Lluís Castrejón, Kaustav Kundu, Raquel Urtasun, Sanja Fidler [Best Paper Honorable Mention Awards] • 詳細な領域形状のアノテーションを楽にするために,物体を囲むPolygonの編集点をRNNで出力するような学習を行った • 人間がacceptableなレベル(どうやって決めた??)まで精度が出た
  • 15.
    続き • 希望があれば関西CVPRML勉強会で解説 • 良く見て聴いてきたリスト(面白いと思ったもののみ掲載) •Online Graph Completion: Multivariate Signal Recovery in Computer Vision, Won Hwa Kim, Mona Jalal, Seongjae Hwang, Sterling C. Johnson, Vikas Singh • グラフ信号処理を利用しているように思える. • 点群の欠損を上手く保管しているみたい. • やはり,グラフ信号処理の勉強が足りない…. • A Message Passing Algorithm for the Minimum Cost Multicut Problem, Paul Swoboda, Bjoern Andres • 普通のgraph cutはグラフを2つにしか分けられない.multicut(3つ以上に分ける)はNP-hard • 近似非(lower bound)などの詳細がポスターにはなかったが,linearで動くらしい. • Depth from Defocus in the Wild, Huixuan Tang, Scott Cohen, Brian Price, Stephen Schiller, Kiriakos N. Kutulakos • 手法の詳細は不明だが,CNN使ってない!?しかし,かなり出来ていそうだった.スマホ画像に対して動作さ せていた模様.一見すると,そこまでdefocusが目立つようには見えない画像.