Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Eccv2018 report day3

498 views

Published on

ECCV参加速報(3日目)

Published in: Engineering
  • Be the first to comment

Eccv2018 report day3

  1. 1. ECCV2018参加速報 (3日目) 橋本敦史 京大美濃研⇢OMRON SINIC X Corp. (OSX) 2018.4より研究職に転職しました
  2. 2. 使用上の注意 • これは個人的なメモ資料です.いわば「チラシの裏」です.こ の資料をみて,なんじゃこりゃ…と思われた方には大変申し訳 ありません.もっと素敵な資料はたくさんあると思いますので, そっと閉じて,他をあたって頂ければ幸いです. • この資料は「チラシの裏」ですが,下記はまんまチラシです. • 弊社ではインターン生を年中募集しています.東京から遠隔にお住ま いの方で も長期休みを利用してフレキシブルにインターンしていただ けます.東京に お住まいの方でも,週に数回など,授業・研究の合間 に働きながらスキルを 身に着けていただけます. 詳しくはこちら(怪 しいURLですが,弊社のスタートアップ感の迸りです)
  3. 3. Oral Session 3A O-3A-01 MVSNet: Depth Inference for Unstructured Multi-view Stereo Yao Yao*, The Hong Kong University of Science and Technology; Zixin Luo, HKUST; Shiwei Li, HKUST; Tian Fang, HKUST; Long Quan, Hong Kong University of Science and Technology O-3A-02 PlaneMatch: Patch Coplanarity Prediction for Robust RGB-D Registration Yifei Shi, Princeton University; Kai Xu, Princeton University and National University of Defense Technology; Matthias Niessner, Technical University of Munich; Szymon Rusinkiewicz, Princeton University; Thomas Funkhouser*, Princeton, USA O-3A-03 Active Stereo Net: End-to-End Self-Supervised Learning for Active Stereo Systems Yinda Zhang*, Princeton University; Sean Fanello, Google; Sameh Khamis, Google; Christoph Rhemann, Google; Julien Valentin, Google; Adarsh Kowdle, Google; Vladimir Tankovich, Google; Shahram Izadi, Google; Thomas Funkhouser, Princeton, USA O-3A-04 GAL: Geometric Adversarial Loss for Single-View 3D- Object Reconstruction Li Jiang*, The Chinese University of Hong Kong; Xiaojuan Qi, CUHK; Shaoshuai SHI, The Chinese University of Hong Kong; Jia Jiaya, Chinese University of Hong Kong O-3A-05 Deep Virtual Stereo Odometry: Leveraging Deep Depth Prediction for Monocular Direct Sparse Odometry Nan Yang*, Technical University of Munich; Rui Wang, Technical University of Munich; Joerg Stueckler, Technical University of Munich; Daniel Cremers, TUM
  4. 4. MVSNet: Depth Inference for Unstructured Multi-view Stereo, Yao Yao et al. • Voxelなどの3D物体の表現を0,1ではなく,[0,1]で確率として出 力するようなCNNを構築するなどしている? • 今日は3D reconstructionで似たような話が多すぎて記憶が曖昧 … Oral
  5. 5. PlaneMatch: Patch Coplanarity Prediction for Robust RGB-D Registration, Yifei Shi et al. • SfMでカメラがぐるっと部屋の壁を一周して戻ってくるとloop が閉じるところで誤差蓄積の影響がでる. • Key pointに加えて,3D reconstructionの新たな指標として平 面を導入. ⇢ 同一平面かどうかのマッチングをCNNベースで解く. (Co-planarity Matching) • 上記はSelf-supervised で訓練できる←本当??際どいものも??? • 部屋は少数の平面で構成されているので,平面をあわせるとズレにく い. • もはや計測していないので,実は壁がずれていた場合などには 役に立たないのでは?おもちゃみたいなお手軽モデリングには 良さげ? Oral
  6. 6. Active Stereo Net: End-to-End Self-Supervised Learning for Active Stereo Systems, Yinda Zhang et al. • ちょっと別件で落ちてました. Oral
  7. 7. GAL: Geometric Adversarial Loss for Single- View 3D-Object Reconstruction, Li Jiang et al. • 3DオブジェクトをVoxelではなく,球の集合で表現するモデル を前提とする. • 従来手法では,正解との誤差をChamfer距離のみで計算しLoss として利用 • 必ずしも物体の形状を保持しなかった. • 新たに,Multi-viewでの見えに基づく誤差や敵対的誤差を導入 Oral
  8. 8. Deep Virtual Stereo Odometry: Leveraging Deep Depth Prediction for Monocular Direct Sparse Odometry, Nan Yang et al. • 単眼カメラでもCCNベースでDepthをある程度推定することで, 交通シーンでのカメラの自己位置推定において,従来のステレ オビジョンによる手法と同程度の精度を達成. Oral
  9. 9. Poster Session
  10. 10. A Dataset and Architecture for Visual Reasoning with a Working Memory • タイトルが気になったので写真は取ったが発表者が不在だった. Poster
  11. 11. Unsupervised Image-to-Image Translation with Stacked Cycle-Consistent Adversarial Network • Stacked GANをCycle-GANに適用した,という感じ? Poster
  12. 12. Action Anticipation with RBF Kernelized Feature Mapping RNN • これも混雑してたけど多分latent featureをRBFで表現すること によって精度が向上するよ,という論文. • RBFを使うというテクニックは強化学習勉強会でも見た. • 結局VAEと一緒?というあたり, ちょっと勉強不足. Poster
  13. 13. Predicting Future Instance Segmentation by Forecasting Convolutional Features • 将来のフレームのMasked R-CNNの特徴マップを未来予測する 論文. • CVPR2016で物体識別の特徴を未来予測する論文があったが, それとほぼ一緒ぽい. • こっちの方が実用的かも. • それ以上の工夫があるかは 未確認 Poster
  14. 14. Joint optimization for compressive video sensing and reconstruction under hardware constraints • 撮像素子の露光タイミングを画素ごとにランダムに変える⇢動 いているところがわかりやすい⇢効率よく複数フレームを圧縮 可能(複合などはCNNで学習) • 実際には撮像素子の回路の制約 でランダムは実現しにくい. • 縦横の列ごと連動して制御,など. • 回路の制約化で上手く動くパターン をDecoderの学習と一緒に End-to-Endで学習 • 長原先生のところの研究 Poster
  15. 15. Deforming Autoencoders: Unsupervised Disentangling of Shape and Appearance • 顔のように「テンプレート」が作成可能な対象に対して,AEで 得られるlatent featureを以下の2つに分離 • Geometricな摂動成分 • その他(Appearance成分) • 応用は,平均顔に貼った マーカーを摂動で 個人の顔に適応させられる, とかかな…. Poster
  16. 16. Seeing Tree Structure from Vibration • 木の枝の木構造(真の意味で!!)を抽出! Poster
  17. 17. Oral Session 3B O-3B-01 Unsupervised Geometry-Aware Representation for 3D Human Pose Estimation Helge Rhodin*, EPFL; Mathieu Salzmann, EPFL; Pascal Fua, EPFL, Switzerland O-3B-02 Dual-Agent Deep Reinforcement Learning for Deformable Face Tracking Minghao Guo, Tsinghua University; Jiwen Lu*, Tsinghua University; Jie Zhou, Tsinghua University, China O-3B-03 Deep Autoencoder for Combined Human Pose Estimation and Body Model Upscaling Matthew Trumble*, University of Surrey; Andrew Gilbert, University of Surrey; John Collomosse, Adobe Research; Adrian Hilton, University of Surrey O-3B-04 Occlusion-aware Hand Pose Estimation Using Hierarchical Mixture Density Network Qi Ye*, Imperial College London; Tae-Kyun Kim, Imperial College London O-3B-05 GANimation: Anatomically-aware Facial Animation from a Single Image Albert Pumarola*, Institut de Robotica i Informatica Industrial; Antonio Agudo, Institut de Robotica i Informatica Industrial, CSIC-UPC; Aleix Martinez, The Ohio State University; Alberto Sanfeliu, Industrial Robotics Institute; Francesc Moreno, IRI
  18. 18. Unsupervised Geometry-Aware Representation for 3D Human Pose Estimation • https://www.youtube.com/watch?v=zFqwwKP0_kA • 3D系の論文は動画貼っておいた方が言葉のメモよりわかりやす い気がしてきた…. • CVPR2018であった同じ著者らの発表(skiとかをmultiviewで とって姿勢推定のpretrainingを教師なしで実現する奴)の続編ら しい. • Appearance特徴を姿勢特徴と分離したり,背景を多様にするような工 夫の辺りかな. Oral
  19. 19. Dual-Agent Deep Reinforcement Learning for Deformable Face Tracking • 顔を追跡できればland markの特定がしやすい. • Land markを特定できれば顔を追跡しやすい. ⇢同時に解きたいよね. • Multi-task Learningが置く仮定は結構きつい. • 入力X, taskの出力をY1,Y2とすると p(Y1, Y2|X)を仮定.本来はY1とY2はお互いに依存しあうはず. • ベイズの定理で考えれば下記のように依存関係を表現できる. p(Y1|Y2,X)p(Y2|X)=p(Y1|Y2,X)p(Y2|X) • この発想のもとで,お互いにメッセージをPathする部分を作成 し,左辺と右辺を交互に最適化していくことで精度向上を達成. Oral
  20. 20. Deep Autoencoder for Combined Human Pose Estimation and Body Model Upscaling • かなり小さく写ってしまっている人でもなんとかPose Estimationの精度を上げたい. • 解像度の高い画像をEnc-Decで復元するような学習をしておく ことで精度向上 • なんか,PosterとOralの差が本当にわからなくなるよ…. Oral
  21. 21. Occlusion-aware Hand Pose Estimation Using Hierarchical Mixture Density Network • 手の姿勢推定で,見えない部分をどう扱うか. 1. 正規分布による生成モデルを仮定する場合 2. 混合正規分布による生成モデルを仮定する場合 3. 混合正規分布を生成する正規分布による階層的生成モデルを仮定す る場合 • 1は全然だめっぽい.2と3はそんなに違わないように見えるが …. Oral
  22. 22. GANimation: Anatomically-aware Facial Animation from a Single Image • 従来のGAN: 様々な表情の顔画像を復元可能. ⇢それらの間を滑らかに補間するようなことが出来ない. • Action Unit間の摂動をパラメタとすることで,表情aと表情bの 線形和として表現可能な表情空間を構築. • GANで滑らかな変化を実現. • 映像に適用しても結構滑らかだが,喋っている途中の唇の動き などはまだ対応できていないので,今後の課題. • Honorable Mention Award Oral
  23. 23. Poster Session
  24. 24. Deep Imbalanced Attribute Classification using Visual Attention Aggregation • サンプル数の不均衡に対する手法. • 積ん読.メモとして残す. Poster
  25. 25. Coloring with Words: Guiding Image Colorization Through Text-based Palette Generation • 色付けするGANの色味を自然言語で指示したい. • カラーパレットを自然言語から生成し,それを使った彩色をさ せる. Poster
  26. 26. Variable Ring Light Imaging: Capturing Transient Subsurface Scattering with An Ordinary Camera • 表面化散乱の計測手法.リング照明を,計測面との距離を変え ながらあてる. • リング中央の点の周辺の表面化散乱が(距離を変えたときの輝度の 差)として計算可能になる. • 京大に新しく来られた西野教授 が筆頭著者.すごい. Poster
  27. 27. Hand Pose Estimation via Latent 2.5D Heatmap Regression • 2.5D⇢3D変換を噛ましてから手の姿勢推定をする. • 2.5Dで法線方向に近いところがheatmapで値が高くなっていた ので,その辺りを上手く対処しているのだと思うけど(違うか も). Poster
  28. 28. Conditional Image-Text Embedding Networks • メモ. Poster
  29. 29. Oral 3C O-3C-01 Deterministic Consensus Maximization with Biconvex Programming Zhipeng Cai*, The University of Adelaide; Tat-Jun Chin, University of Adelaide; Huu Le, University of Adelaide; David Suter, University of Adelaide O-3C-02 Robust fitting in computer vision: easy or hard? Tat-Jun Chin*, University of Adelaide; Zhipeng Cai, The University of Adelaide; Frank Neumann, The University of Adelaide, School of Computer Science, Faculty of Engineering, Computer and Mathematical Science O-3C-03 Highly-Economized Multi-View Binary Compression for Scalable Image Clustering Zheng Zhang*, Harbin Institute of Technology Shenzhen Graduate School; Li Liu, the inception institute of artificial intelligence; Jie Qin, ETH Zurich; Fan Zhu, the inception institute of artificial intelligence ; Fumin Shen, UESTC; Yong Xu, Harbin Institute of Technology Shenzhen Graduate School; Ling Shao, Inception Institute of Artificial Intelligence; Heng Tao Shen, University of Electronic Science and Technology of China (UESTC) O-3C-04 Efficient Semantic Scene Completion Network with Spatial Group Convolution Jiahui Zhang*, Tsinghua University; Hao Zhao, Intel Labs China; Anbang Yao, Intel Labs China; Yurong Chen, Intel Labs China; Hongen Liao, Tsinghua University O-3C-05 Asynchronous, Photometric Feature Tracking using Events and Frames Daniel Gehrig, University of Zurich; Henri Rebecq*, University of Zurich; Guillermo Gallego, University of Zurich; Davide Scaramuzza, University of Zurich& ETH Zurich, Switzerland
  30. 30. Deterministic Consensus Maximization with Biconvex Programming • RANSACなどが対象としているConsensus Maximization (MAXCON)に対する新しい近似手法の提案. • 従来手法が理論的根拠ない,といっているが発表中に提案手法 の理論的根拠も示されていないので(多分論文で証明されてい る?要確認),差が伝わらない. • 次の発表も同じ著者で,そっちの方が面白かった. Oral
  31. 31. • Poster
  32. 32. Robust fitting in computer vision: easy or hard? • MAXCONがLkOS問題(画像)の双対問題であることを手がかりとして, MAXCONの計算量が下記のクラスであることを証明 • NP-hard • もはや説明はいるまい. • W[1]-hard • 変数の右肩に変数がのるオーダーの形を 解消できない数学的クラス. • APX-hard • 任意の近似比(1+ε)を実現する 近似アルゴリズムが存在しない. • 一応,近似比= [神のみぞ知る正解が達成するスコア]/ [あるアルゴリズムが達成するWorst case のスコア] Oral
  33. 33. Highly-Economized Multi-View Binary Compression for Scalable Image Clustering • 様々な視点で独立したクラスタを得たい. • 画像をbinary vectorとして表現し,クラスタリングする. • 実は私がやりたいことの一つとちょっと近い. • しかし,この方法がそんなに良い方法なのか,よくわからな かった. Oral
  34. 34. Efficient Semantic Scene Completion Network with Spatial Group Convolution • 著者らの作成した従来手法であるSparse Convolutionを3Dに拡 張して,3次元シーンに対する3次元semantic segmentationみ たいな問題(Semantic Scene Completion)の精度を向上させた. • 屋内シーンで,シンプルな形状の物体が多いから上手く行って いる印象. Oral
  35. 35. Asynchronous, Photometric Feature Tracking using Events and Frames • イベントカメラ(紐つけてぐるぐる回したりしているあれ)を 使って,subframe(high speed camera並み)に対するフレーム 間差分のような画像を取得. • Subframeでの輝度変化の情報を得られるので,物体追跡が容 易になる. • 普通のカメラの画像(frame)と結果を統合しているが,frameは追跡に あまり寄与しないらしい. • Event cameraはdynamic rangeも非常に広い(というか差分だ から実質dynamic rangeに限界が殆ど無い???)ので,かなり暗 いところでも物体追跡可能. Oral
  36. 36. Poster Session
  37. 37. Accurate Scene Text Detection through Border Semantics Awareness and Bootstrapping • テキストの左右・上下を区別して学習させることで精度向上? • Bootstrappingの 部分,ノーマークで 流してしまった. Poster
  38. 38. AGIL: Learning Attention from Human for Visuomotor Tasks • ポスターと論文のタイトルが違う! • 人間がAtariとかのゲームをするときの視線の動き=Attentionを 真似ることで,精度向上. • 行動として,操作だけでなく 認知行動もいれたら良い. • 認知行動の部分をimitation learning! Poster
  39. 39. RT-GENE: Real-Time Eye Gaze Estimation in Natural Environments • がっつり視線計測装置をつけてデータを取得. • 装置をGANで消して,データセット作成. • 学習したらいい感じ. Poster
  40. 40. Out-of-Distribution Detection Using an Ensemble of Self Supervised Leave-out Classifiers • 学習していないサンプル(odd samples)をそれとしてしっかり 検出できるような識別器の作成. • 学習データにはもちろんそういうサンプルが入っていない. • 擬似的にodd sampleを仮定して上手く学習する.おもろい. • Margin-entropyという誤差関数が気になった. Poster
  41. 41. Recognition in Terra Incognita • 野生動物の生息数などの監視用の動物識別? • 某知り合いの先生に知らせたい. Poster
  42. 42. Deep Regionlets for Object Detection • Regionletsをだしたい. • Regionletsってなんだ?って思ったのでメモ. • 物体領域矩形の中のsubregion.情報量が多い部分って考えたらよいの か?背景以外をカバーする矩形の集合と考えたらよいのかな? • Region Selection Networkで, 回転とかも考えることで, いい感じのregionletsを得る. • そもそも,従来手法は Hand-craftedだった. • なんでRegionletsだしたいんだろ? Poster

×