Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

CVPR2017 3D Computer Vision papers

1,001 views

Published on

CVPR2017で3D Computer Visionとしてタグがつけられた論文を一覧として個人にまとめたものです。(論文一枚毎に1ページ(Abstract翻訳+いい感じの図))

Published in: Engineering
  • Be the first to comment

CVPR2017 3D Computer Vision papers

  1. 1. CVPR2017 3D Computer Vision papers 東京大学 相澤山﨑研究室 2017/10/03 B4 金子 真也
  2. 2. 1 What is this? • 3D Computer VisionとしてカテゴライズされているCVPR2017の 論文を一覧にしました • それぞれの論文に対し, Abstract翻訳(by Google) + 内容をよく表 す図を使って1ページにまとめてます • 個人的に一通り3DCV系の論文を軽く目を通すためのまとめだと 考えてもらえれば幸いです • 個人的に面白そうだと思った論文を太線や色付きにしているので 参考にしてください • CVPR2017 accepted papers on the Web http://www.cvpapers.com/cvpr2017.html
  3. 3. Papers
  4. 4. 3 Poster1-1 1. Face Normals “in-the-wild” using Fully Convolutional Networks 2. A Non-Convex Variational Approach to Photometric Stereo Under Inaccurate Lighting 3. A Linear Extrinsic Calibration of Kaleidoscopic Imaging System From Single 3D Point 4. Polarimetric Multi-View Stereo 5. An Exact Penalty Method for Locally Convergent Maximum Consensus 6. Deep Supervision With Shape Concepts for Occlusion-Aware 3D Object Parsing 7. Amodal Detection of 3D Objects: Inferring 3D Bounding Boxes From 2D Ones in RGB-Depth Images
  5. 5. 4 Poster1-2 1. Exploiting 2D Floorplan for Building-Scale Panorama RGBD Alignment 2. A Combinatorial Solution to Non-Rigid 3D Shape-To-Image Matching 3. NID-SLAM: Robust Monocular SLAM Using Normalised Information Distance 4. End-To-End Training of Hybrid CNN-CRF Models for Stereo 5. Learning Shape Abstractions by Assembling Volumetric Primitives 6. Locality-Sensitive Deconvolution Networks With Gated Fusion for RGB-D Indoor Semantic Segmentation 7. Acquiring Axially-Symmetric Transparent Objects Using Single-View Transmission Imaging
  6. 6. 5 Poster1-2 8. Regressing Robust and Discriminative 3D Morphable Models With a Very Deep Neural Network 9. End-To-End 3D Face Reconstruction With Deep Neural Networks 10. DUST: Dual Union of Spatio-Temporal Subspaces for Monocular Multiple Object 3D Reconstruction
  7. 7. 6 Poster2-1 1. Scalable Surface Reconstruction From Point Clouds With Extreme Scale and Density Diversity 2. Synthesizing 3D Shapes via Modeling Multi-View Depth Maps and Silhouettes With Deep Generative Networks 3. General Models for Rational Cameras and the Case of Two-Slit Projections 4. Accurate Depth and Normal Maps From Occlusion-Aware Focal Stack Symmetry 5. A Multi-View Stereo Benchmark With High-Resolution Images and Multi-Camera Videos 6. Non-Contact Full Field Vibration Measurement Based on Phase-Shifting 7. A Minimal Solution for Two-View Focal-Length Estimation Using Two Affine Correspondences
  8. 8. 7 Poster2-1 8. PoseAgent: Budget-Constrained 6D Object Pose Estimation via Reinforcement Learning 9. An Efficient Background Term for 3D Reconstruction and Tracking With Smooth Surface Models
  9. 9. 8 Poster2-2 1. Surface Motion Capture Transfer With Gaussian Process Regression 2. Visual-Inertial-Semantic Scene Representation for 3D Object Detection 3. Template-Based Monocular 3D Recovery of Elastic Shapes Using Lagrangian Multipliers 4. Learning Category-Specific 3D Shape Models From Weakly Labeled 2D Images 5. Simultaneous Geometric and Radiometric Calibration of a Projector-Camera Pair 6. Learning Barycentric Representations of 3D Shapes for Sketch-Based 3D Shape Retrieval 7. Geodesic Distance Descriptors
  10. 10. 9 Poster3-1 1. Self-Calibration-Based Approach to Critical Motion Sequences of Rolling-Shutter Structure From Motion 2. Semi-Calibrated Near Field Photometric Stereo 3. Semantic Multi-View Stereo: Jointly Estimating Objects and Voxels 4. Learning to Predict Stereo Reliability Enforcing Local Consistency of Confidence Maps 5. The Misty Three Point Algorithm for Relative Pose 6. The Surfacing of Multiview 3D Drawings via Lofting and Occlusion Reasoning 7. A New Representation of Skeleton Sequences for 3D Action Recognition 8. A General Framework for Curve and Surface Comparison and Registration With Oriented Varifolds
  11. 11. 10 Poster3-1 9. Learning to Align Semantic Segmentation and 2.5D Maps for Geolocalization 10. A Generative Model for Depth-Based Robust 3D Facial Pose Tracking 11. Fast 3D Reconstruction of Faces With Glasses 12.An Efficient Algebraic Solution to the Perspective-Three- Point Problem
  12. 12. 11 Poster4-1 1. Semantically Coherent Co-Segmentation and Reconstruction of Dynamic Scenes 2. On the Two-View Geometry of Unsynchronized Cameras 3. Using Locally Corresponding CAD Models for Dense 3D Reconstructions From a Single Image 4. A Clever Elimination Strategy for Efficient Minimal Solvers 5. Convex Global 3D Registration With Lagrangian Duality 6. DeMoN: Depth and Motion Network for Learning Monocular Stereo 7. 3D Bounding Box Estimation Using Deep Learning and Geometry 8. A Dataset for Benchmarking Image-Based Localization
  13. 13. 12 Poster4-2 1. SGM-Nets: Semi-Global Matching With Neural Networks 2. Stereo-Based 3D Reconstruction of Dynamic Fluid Surfaces by Global Optimization 3. Fine-To-Coarse Global Registration of RGB-D Scans 4. Analyzing Computer Vision Data - The Good, the Bad and the Ugly 5. Product Manifold Filter: Non-Rigid Shape Correspondence via Kernel Density Estimation in the Product Space 6. Unsupervised Vanishing Point Detection and Camera Calibration From a Single Manhattan Image With Radial Distortion 7. Toroidal Constraints for Two-Point Localization Under High Outlier Ratios
  14. 14. 13 Poster4-2 8. 4D Light Field Superpixel and Segmentation 9. Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation From Single and Multiple Images
  15. 15. Abstracts
  16. 16. Poster1-1
  17. 17. 16 Poster1-1 1. Face Normals “in-the-wild” using Fully Convolutional Networks この作業では、特に人間の顔に焦点を当て、単一の輝度画像から表面法線を推定する問題に対する データ駆動アプローチを追求します。 現時点で利用可能な顔データベースをデータセット構築に活 用し、深い畳み込みニューラルネットワークを顔面の法線を「野生のもの」と見積もるタスクに合 わせる新しい方法を紹介します。 私たちは、挑戦的な表現や顔のポーズなど、画像から顔の正常を 正確に回復できる完全な畳み込みネットワークを訓練します。 最先端のシェイプシェーディング シェーディングと3D再構成技術と比較し、提案されたネットワークが実質的により正確で現実的な ノーマルを回復できることを示します。 さらに、既存の他の面特異的表面回復法とは対照的に、私 たちはネットワークの完全な畳み込み性のために明示的なアライメントステップを解決する必要は ありません。
  18. 18. 17 Poster1-1 2. A Non-Convex Variational Approach to Photometric Stereo Under Inaccurate Lighting この論文では、キャリブレーションまたはキャリブレーション されていない測光ステレオ法のいずれかによって得られた、不 正確な照明の存在下で測光ステレオ問題に取り組んでいます。 ノイズと外れ値の正確なモデリングに基づいて、堅牢な変分ア プローチが導入されています。 明示的に自己影を説明し、再評 価ミスマイターに頼ることによって、キャスシャドウと鏡面性 の堅牢性を強制する。 結果として得られる非凸モデルは、計算 効率の良い交互再重み付き最小二乗アルゴリズムによって解決 される。 暗黙のうちに統合性を強制するので、新しい変種アプ ローチは、照明の強度と方向の両方を改善することができます。
  19. 19. 18 Poster1-1 3. A Linear Extrinsic Calibration of Kaleidoscopic Imaging System From Single 3D Point 本論文では、鏡の法線と距離を推定することにより、 万華鏡画像システムの新しい外来校正を提案する。 この論文で解決すべき問題は、複数の反射を通して一 貫したすべてのミラーパラメータの同時推定です。 鏡面ごとにパラメータを推定するために参照3Dオブ ジェクトの直接画像と鏡像のペアを利用する従来の方 法とは異なり、本発明の方法は、連立した推定問題を 線形連立方程式の解にする。 この論文の主な貢献は、 未知のジオメトリの単一3D点の万華鏡2D投影からの 複数のミラーパラメータの線形推定を導入することで す。 合成された画像と実際の画像を用いた評価は、 従来の方法と比較して提案されたアルゴリズムの性能 を示す。
  20. 20. 19 Poster1-1 4. Polarimetric Multi-View Stereo マルチビュー・ステレオは、3次元再構成のための機能対応に依存しているため、特徴のないシーン を扱う際に根本的に欠陥があります。本論文では、3次元再構成のための多視点からのエピポーラ制 約と偏光からのピクセル毎の測光情報を組み合わせた偏光多視点ステレオを提案する。偏光は表面 法線情報を明らかにし、したがってフィーチャーレス領域に深度を伝播するのに役立ちます。偏光 マルチビューステレオは完全にパッシブであり、データキャプチャは偏光子または偏光カメラのい ずれかで簡単に行うことができるので、制御されていない照明で屋外に適用することができます。 拡散偏光または鏡面偏光のみに限定される偏光からの形状に関する以前の研究とは異なり、本発明 者らは、混合偏光を有する実世界の物体を扱うことができる新規な偏光撮像モデルを提案する。 我々は、偏光から表面方位角を推定する際に正確に2つのタイプの曖昧さがあることを証明し、グラ フ最適化と等深度輪郭追跡でそれらを解決する。このステップは、完全な3次元再構成のために後で 一緒に融合される最初の深度マップ推定を大幅に改善する。幅広い実験結果は、セラミックタイル、 白い壁のオフィスルーム、屋外での反射率の高い車など、フィーチャーレス3Dオブジェクトの最新 のマルチビューステレオ方法よりも高品質の3D再構成と優れたパフォーマンスを示します。
  21. 21. 20 Poster1-1 5. An Exact Penalty Method for Locally Convergent Maximum Consensus 最大コンセンサス推定は、コンピュータビジョンにおいて非常に重要な役割を果たす。現在、最も 一般的なアプローチは、安価であるが解決策の品質を保証しない、非決定論的仮説 - 検証アルゴリ ズムのクラスから引き出される。他の極端な場合には、本質的に徹底的な探索であり、実用的な大 きさの入力に対してコストがかかる可能性のあるグローバルアルゴリズムが存在する。この論文は、 局所的に収束する最大コンセンサスアルゴリズムを提案することによって両極端の間のギャップを 埋めることを目指している。我々の方法は、線形相補性制約を用いて問題を定式化し、元の問題と 等価であるペナルティ・バージョンを定義することに基づいている。ペナルティ問題に基づいて、 最大コンセンサス問題を決定論的に解くことができるFrank-Wolfeアルゴリズムを開発する。ラン ダム化手法と比較して、我々の方法は決定論的かつ局所的に収束している。グローバルアルゴリズ ムに比べて、我々の方法は現実的な入力サイズではるかに実用的です。さらに、我々のアプローチ は当然ながら幾何学的な残差に関する問題に適用可能である。
  22. 22. 21 Poster1-1 6. Deep Supervision With Shape Concepts for Occlusion-Aware 3D Object Parsing 単眼3Dオブジェクトの解析は、オクルージョンの推論や全体的なシーンの解釈を含むさまざまなシナリオで 非常に望ましいです。我々は、単一のRGB画像を考慮して、視覚的状態を推測しながら、2次元画像および3 次元空間における意味的部分を局所化するための深い畳み込みニューラルネットワーク(CNN)アーキテク チャを提示する。私たちの重要な洞察は、最終的なタスクに関連する中間概念を逐次推論するために、ドメ イン知識を活用して、隠れた層を深く監督することによってネットワークを正統化することです。グラウン ドトゥルースの3D形状と関連する概念を使用して必要な量のトレーニングデータを取得するために、3Dオブ ジェクトCADモデルをレンダリングして、大規模な合成データを生成し、オブジェクト間の難しいオクルー ジョン構成をシミュレートします。私たちは合成データのみでネットワークを訓練し、2Dおよび3Dのキーポ イントのローカリゼーションとインスタンスセグメンテーションのためのKITTI、PASCAL VOC、PASCAL3 D +、IKEAの拡張版を含む実イメージベンチマークで最先端のパフォーマンスを実演します。経験的な結果 は、標準的なエンドツーエンドのトレーニングに比べてより少ない過剰適合をもたらす、実際の画像に合成 データから知識の効果的な転写を示すことによって、私達の深い監督方式の有用性を実証します。
  23. 23. 22 Poster1-1 7. Amodal Detection of 3D Objects: Inferring 3D Bounding Boxes From 2D Ones in RGB-Depth Images 本論文では、3次元物体検出のアモーダル知覚問題を扱う。このタスクは、3D世界でのオブジェクトのロー カリゼーションを検出するだけでなく、RGB-Dイメージに一部が表示されている場合でも、物理的なサイズ とポーズを見積もることです。最近のアプローチでは、深度チャネルからポイントクラウドを利用して3D空 間内で直接3Dフィーチャを利用しようと試み、従来の2.5D表現アプローチよりも優れていることを実証しま した。 Amodal 3D検出問題は、2.5D表現フレームワークに固執し、2.5D視覚的外観を3Dオブジェクトに 直接関連付けることで再考します。屋内での物体の3次元位置、物理的大きさ、方向を同時に予測する新しい 3次元物体検出システムを提案する。 NYUV2データセットの実験は、本発明者らのアルゴリズムが最先端技 術よりも著しく優れていることを示し、3Dアモダル物体検出のための特徴を符号化することができる2.5D表 現を示している。ソースコードとデータはすべてhttps://github.com/phoenixnn/Amodal3Detにあります。
  24. 24. Poster1-2
  25. 25. 24 Poster1-2 1. Exploiting 2D Floorplan for Building-Scale Panorama RGBD Alignment 本稿では、2Dフロアプランを利用してパノラマRGBDスキャンを整列させる新しいアルゴリズムを紹介する。 効果的なパノラマRGBDアラインメント技術が存在するが、そのようなシステムは、非常に高密度のRGBD画 像サンプリングを必要とする。 我々のアプローチは、フロアプラン画像を利用して必要なスキャン数を大幅 に減らすことができます。 我々は、従来のスキャン・トゥ・スキャン・アラインメントとは対照的に、フロ アプラン上のスキャン配置として、新規なマルコフ・ランダム・フィールド推論問題を定式化する。 技術的 貢献は、マルチモーダル画像対応手がかり(スキャンとスケマティックフロアプランの間)と、固有の積み 重ねバイアスを回避する新規なカバレッジポテンシャルにあります。 提案されたアプローチは、5つの挑戦 的な大きな屋内空間で評価されている。 われわれが知る限りでは、建物規模の3Dポイントクラウドアライメ ントに2Dフロアプランイメージを使用する最初の有効なシステムを紹介します。 ソースコードとデータはコ ミュニティと共有され、屋内マッピング研究をさらに強化します。
  26. 26. 25 Poster1-2 2. A Combinatorial Solution to Non-Rigid 3D Shape-To-Image Matching 我々は、3D形状を非剛性に3D画像データにマッチングさせる問題のための組み合わせソリューションを提案 する。この目的のために、形状を三角形メッシュとしてモデル化し、このメッシュの各三角形を剛性に変換 して画像に適切に適合させる。隣接する三角形間の距離と相対回転にペナルティを課すことにより、イメー ジと形状情報の間のマッチングが妥協されます。本稿では、次の2つの大きな課題を解決します。第1に、適 切なグラフ理論的手法を用いて、結果として生じる大規模なNPハードコンビナトリアル問題を解決します。 第2に、無限の6次元Lie群SE(3)の効率的な離散化を提案する。私たちの知る限りでは、これは非剛体3D 形状 - 画像マッチングのための最初の組み合わせ式です。既存のローカル(勾配降下)最適化方法とは対照 的に、我々は良好な初期化を必要とせず、最適解の範囲内にある解を得る。我々は、非剛体3次元形状と非剛 体3次元形状と画像の位置合わせの2つの問題について提案された方法を評価し、有望な結果を提供すること を実証する。
  27. 27. 26 Poster1-2 3. NID-SLAM: Robust Monocular SLAM Using Normalised Information Distance 我々は、正規化情報距離(NID)メトリックに基づく直接単眼SLAMアルゴリズムを提案する。 測光誤差最 小化に基づく現在の最先端の直接的な方法とは対照的に、我々の情報理論的NIDメトリックは、照明、天候、 およびシーンの構造変化による外観変化に頑健性を提供する。 合成屋内でのライティングの変化や天候(直 射日光、雨、雪)の変化を乗り越えて、車載カメラから収集した実際のデータを使用して、ローカライゼー ションとマッピングを成功させています。 我々のアプローチは、OpenGLを使用するコンシューマGPU上で リアルタイムに実行され、最先端の測光方式に匹敵するローカライゼーション精度を提供しますが、外観変 化に対する堅牢性において、直接方式とフィーチャベース方式の両方よりも顕著に優れています。
  28. 28. 27 Poster1-2 4. End-To-End Training of Hybrid CNN-CRF Models for Stereo 我々は、ステレオ推定のための新規かつ原理的なハイブリッドCNN + CRFモデルを提案する。我々のモデル は、畳み込みニューラルネットワーク(CNN)と条件付きランダムフィールド(CRF)の両方の利点を統一 された手法で利用することを可能にする。 CNNは、マッチングのための表現豊かな特徴と、CRFの単項と二 進のコストを計算するために使用される特有のカラーエッジを計算します。推論のために、近似的に提案さ れた高並列近似最小化器を計算するために小さな固定数の反復しか必要としない、高度に並列なデュアルブ ロック降下アルゴリズムを適用する。本稿では、大規模データのエンドツーエンドでハイブリッドCNN + C RFモデルを訓練するための構造化出力支援ベクトルマシン(SSVM)に基づく理論的に健全な方法を提案す る。当社の訓練されたモデルは、浅いCNNを使用しているにもかかわらず、CRFの最終出力にいかなる種類 の後処理も適用していないにもかかわらず、非常にうまく機能します。 Middlebury 2014やKitti 2015など の難しいステレオベンチマークで組み合わせたモデルを評価し、個々のコンポーネントのパフォーマンスも 調べます。
  29. 29. 28 Poster1-2 5. Learning Shape Abstractions by Assembling Volumetric Primitives 我々は、3Dボリュームプリミティブを使用してオブジェクトをアセンブルすることを学ぶことによって、複 雑な形状を抽象化するための学習フレームワークを提示する。 私たちのフレームワークは、3Dオブジェクト のシンプルで幾何学的に解釈可能な説明を生成するだけでなく、データ内の一貫した構造を自動的に発見し、 活用することもできます。 この方法を使用すると、シェイプコレクションのインスタンス間で一貫性のある 解析を取得し、解釈可能なシェイプ類似性測度を構築するために活用できるシェイプ表現を予測できます。 我々はまた、画像ベースの予測と形状操作のアプリケーションを検討します。
  30. 30. 29 Poster1-2 6. Locality-Sensitive Deconvolution Networks With Gated Fusion for RGB-D Indoor Semantic Segmentation 本稿では、RGB-Dデータを用いた室内セマンティックセグメンテーションについて述べる。一般的に使用さ れているデコンボリューションネットワーク(DeconvNet)はこの課題に関して素晴らしい結果を達成しま したが、まだ2つの面で改善の余地があることがわかります。 1つは、境界セグメンテーションです。 Deco nvNetは、各ピクセルのラベルを予測するために大きなコンテキストを集約し、オブジェクト境界のセグメ ンテーション精度を本質的に制限します。もう一つはRGB-D融合についてです。最近の最先端の方法は、異 なる場面で異なるカテゴリを描写する際の2つのモダリティの様々な寄与に関わらず、通常、等重量スコア融 合によるRGBおよび深度ネットワークを融合する。この2つの問題に対処するために、我々は最初に、各モダ リティ上の境界セグメンテーションを洗練するために、ローカリティに敏感なDeconvNet(LS-DeconvNe t)を提案する。 LS-DeconvNetは生のRGB-Dデータから各DeconvNetにローカルで視覚的かつ幾何学的な 手がかりを組み込み、鋭いオブジェクト境界を回復しながら大きなコンテキストで粗い畳み込みマップを アップサンプリングすることを学ぶことができます。 RGB-D融合に向けて、我々は効果的に2つのLS-Deco nvNetsを結合するためのゲート融合層を導入する。このレイヤーは、高性能のオブジェクト認識のために各 ピクセルのRGBと深度の寄与を調整することを学ぶことができます。大規模なSUN RGB-Dデータセットと 一般的なNYU-Depth v2データセットの実験は、我々のアプローチがRGB-D室内セマンティックセグメン テーションの新しい画期的な結果を達成することを示しています。
  31. 31. 30 Poster1-2 7. Acquiring Axially-Symmetric Transparent Objects Using Single -View Transmission Imaging 我々は、軸対称透明物体の高品質再構成のための新規で実用的な解決法を提案する。特殊なケースでは、そ のような透明なオブジェクトは現実世界に広がっています。これらの一般的な例は、非常にユニークで視覚 的に魅力的な形態を有し、視覚およびグラフィック用途に興味のある再構成を可能にする眼鏡、タンブラー、 ゴブレット、カラフなどである。当社の取得設定では、このようなオブジェクトを単一の視点からイメージ ングし、LCDパネルから放出された少数のパターンでそれらを直接後ろから照らす。次に、再構成ステップ は、対象物の幾何学的形状および屈折率の最適化に基づいて、対象物を通過する光線の透過および屈折のシ ミュレーション結果の差を最小にする。オブジェクトの軸対称性を強力な形状として利用しているため、シ ンプルな商品取得設定を使用して単一の視点から堅牢な再構成を実現できます。本発明者らは、本発明者ら のアプローチを用いて、いくつかの共通の回転対称およびより複雑なn倍対称透明物体の高品質再構成を実証 する。
  32. 32. 31 Poster1-2 8. Regressing Robust and Discriminative 3D Morphable Models With a Very Deep Neural Network 顔の3次元形状は、区別できることがよく知られている。それにもかかわらず、これは顔の認識にはほとんど 使用されず、常に制御された視聴条件の下で使用されます。これは、単一視点の3D顔再構成の既存の方法で は深刻だが見過ごされがちな問題の症状であると主張している。「野生の中で」適用すると、3D推定値は不 安定であり、過規則化されたものと一般的なもの。それに応じて、我々は、識別可能な3Dモーフィング可能 顔モデル(3DMM)を回帰するための頑強な方法を説明する。私たちは、畳み込みニューラルネットワーク (CNN)を使用して、入力写真から直接3DMMの形状とテクスチャパラメータを退縮させます。膨大な数の ラベル付きサンプルを生成する方法を提供することにより、この目的に必要なトレーニングデータの不足を 克服します。我々のCNNによって生成された3D推定値は、MICCデータセット上の最先端技術の精度を上 回っている。 3D-3D顔面照合パイプラインと組み合わせて、他の現代システムで使用される不透明な深い特 徴ベクトルではなく、3D顔形状を表現として使用するLFW、YTFおよびIJB-Aベンチマークでの最初の競合 顔認識結果を示します。
  33. 33. 32 Poster1-2 9. End-To-End 3D Face Reconstruction With Deep Neural Networks 単一の2D顔画像からの単眼3D顔形状再構成は、その広い用途のために活発な研究領域であった。深層ニュー ラルネットワーク(DNN)の成功に触発されて、単一2D画像からのエンドツーエンド3D FAce再構成(UH- E2FAR)のDNNベースのアプローチを提案します。私たちのDNNモデルは、RGB画像と初期の3D顔形状レ ンダリングの両方を使用して反復的に3D顔を再構成し、洗練する最近の作品とは異なり、複雑な3Dレンダリ ングプロセスは避けられます。さらに、顔面再構成を改善するために、マルチタスクロス機能と融合畳み込 みニューラルネットワーク(CNN)の2つのコンポーネントをDNNアーキテクチャに統合します。マルチタ スクロス機能により、3D顔再構成は、中立3D顔形状再構成と表現的3D顔形状再構成に分割される。中立的 な3D顔形状は、クラス特有のものである。従って、より高い層の特徴が有用である。これとは対照的に、表 現力のある3D顔形状は、より低いまたは中間の層の特徴を好む。融合-CNNでは、異なる中間層からの特徴 が融合され、3D表現的顔形状を予測するために変換される。広範な実験を通して、私たちは、3D顔再構成の 精度を向上させるためのエンドツーエンドフレームワークの優位性を実証します。
  34. 34. 33 Poster1-2 10. DUST: Dual Union of Spatio-Temporal Subspaces for Monocular Multiple Object 3D Reconstruction 我々は、単一のカメラによって取得された不完全な2D軌道から複数の変形オブジェクトの3D形状を再構成す るアプローチを提示する。さらに、我々は同時に、空間セグメンテーション(すなわち、各フレーム内の各 オブジェクトを識別する)と時間的クラスタリング(すなわち、シーケンスをプリミティブアクションに分 割する)を提供する。これは、既存の作業を進化させます。これは、単一のオブジェクトと非閉塞トラック の問題のみに取り組んでいます。部分観測から一度にいくつかのオブジェクトを扱うために、我々は、空間 軌道と時間空間の部分空間の和集合として点軌道をモデル化し、拡張されたラグランジュ乗数を介して両方 のモダリティ、非観測点軌道および3D形状のパラメータを最適化する。このアルゴリズムは完全に監督され ておらず、初期化を必要としない定式化をもたらす。私たちは、複雑な動きと密接な相互作用を伴うさまざ まな活動を行ういくつかの人間の被験者を対象に、挑戦的なシナリオでの方法を徹底的に検証します。最先 端の3D再構成結果を達成するアプローチを示し、空間的および時間的セグメンテーションも提供します。
  35. 35. Poster2-1
  36. 36. 35 Poster2-1 1. Scalable Surface Reconstruction From Point Clouds With Extreme Scale and Density Diversity 本論文では、点密度の極端なジャンプ(我々の実験では3桁 の大きさ)を扱うことができる、マルチスケールのマルチ ビューステレオポイントクラウドから3Dサーフェスメッ シュをロバストに計算するためのスケーラブルなアプローチ を提示する。我々のアプローチの根幹は、オクトリーデータ パーティショニング、ローカルDelaunay四面体化、グラフ カット最適化の組み合わせです。グラフのカット最適化は、 局所的な4面体化が同じトポロジーを共有していない場合で も、局所的なドロネー四面体化から表面仮説を抽出するため に1回、重複する表面仮説をマージするために1回、この定式 化により、サブ問題ごとに一定のメモリ消費量を得ると同時 に、Delaunayベースの最適化の密度非依存補間特性を保持 することが可能になる。複数のパブリックデータセットでは、 我々のアプローチは、精度、完全性、外れ値の復元力という 点で最先端技術と非常に競争力があることを示しています。 さらに、新たに記録された20億ポイントのデータセットと、 4桁を超えるポイント密度の変動を処理することにより、プ ロセスあたり9GB未満のRAMを必要とすることで、我々のア プローチのマルチスケールの可能性を実証します。
  37. 37. 36 Poster2-1 2. Synthesizing 3D Shapes via Modeling Multi-View Depth Maps and Silhouettes With Deep Generative Networks 我々は、3D形状の生成モデルを学習する問題を研究する。ボクセルまたは3D部品は、複雑な3D形状を構築 するための基礎となる表現として広く使用されてきた。しかし、ボクセルベースの表現はメモリ要求が高く、 部品ベースのモデルでは、キャッシュされた部分または豊富にパラメータ化された部分の大量のコレクショ ンが必要です。我々は、多視点の奥行きマップまたはそれらの対応するシルエットに関する生成モデルを学 習し、決定論的レンダリング関数を使用してこれらの画像から3Dシェイプを生成する代わりのアプローチを とる。形状の多視点表示は、3Dボクセルよりもはるかに高い解像度で2D深度マップおよびシルエットをモデ ル化することができるので、細かい細部の3Dモデルの生成を可能にする。さらに、我々の手法は当然ながら、 1つまたはいくつかの視点の深さマップから基礎となる3D表現を回復する能力をもたらす。実験では、フ レームワークがバリエーションと詳細を備えた3Dシェイプを生成できることを示しています。また、モデル には、オクルードされたオブジェクトを使用した実際のタスクにサンプル外の一般化力があることも示して います。 MIT + DeepMind
  38. 38. 37 Poster2-1 3. General Models for Rational Cameras and the Case of Two-Slit Projections 最近[19]で紹介された合理的なカメラモデルは、抽象的な非線形イメージングシステムとそれらのマルチ ビュージオメトリを研究するための一般的な方法論を提供します。このペーパーは、合理的なカメラの「物 理的な実現」を研究するためのフレームワークを基礎にしています。より正確には、物理的な視線とイメー ジポイントとの間のマッピング(元の説明にはない)を明示的に説明します。これにより、直接的および逆 投影の簡単な分析式を提供できます。我々はまた、様々な射影変換の作用下で軌道を描く、「固有の」カメ ラモデルを考慮し、固有のパラメータの一般的な概念に導く。この方法論は一般的であるが、2つのスリット カメラの詳細な研究によって具体的に示されており、線形投影の対を用いてモデル化する。この単純な解析 形式により、対応するプリミティブカメラのモデルを記述し、明確な幾何学的意味を持つ固有のパラメータ を導入し、2視点対応を特徴付けるエピポーラテンソルを定義することができます。これは、動きと自己較正 による構造の新しいアルゴリズムにつながります。
  39. 39. 38 Poster2-1 4. Accurate Depth and Normal Maps From Occlusion-Aware Focal Stack Symmetry 我々は、4Dライトフィールドからの一貫した深さマップと法線マップを共同で推定するための新しいアプ ローチを紹介します。 まず、焦点スタックの対称性からコストボリュームを構築する。 しかし、以前のアプ ローチとは対照的に、我々は、頑健に閉塞に対処できるように部分焦点スタックを導入している。 このアイ デアは既に、より優れた視差マップをもたらす。 第2に、マルチラベル最適化のための最近のサブラベル精 度の方法でさえも、コスト面から区分的な平坦視差マップのみを回復し、法線は主に画像平面に向いている。 これにより、これらのアプローチから回復された法線マップは、潜在的な後続のアプリケーションには不適 切です。 したがって、法線方向への新規な先行リンク深さで正則化を提案し、結果として生じる通常の フィールドの滑らかさを課す。 次に、深度と法線を共同して最適化することで、最近のベンチマークでの精 度で以前の作業を上回る推定値を達成します。
  40. 40. 39 Poster2-1 5. A Multi-View Stereo Benchmark With High-Resolution Images and Multi-Camera Videos 既存のマルチビューステレオベンチマークの限界に動機付けられて、我々はこのタスクのための斬新なデー タセットを提示する。この目標を達成するために、高精度レーザースキャナーを使用して様々な屋内外の シーンを記録し、さまざまな視野の高解像度DSLR画像と低解像度ステレオ動画の両方をキャプチャしました。 画像をレーザ走査と整列させるために、幾何学的条件に基づいて測光誤差を最小化する堅牢な手法を提案す る。以前のデータセットとは対照的に、私たちのベンチマークは斬新な課題を提示し、自然の風景から人工 の屋内外の環境に至るまで多様な視点やシーンの種類をカバーしています。さらに、われわれははるかに高 い時間的および空間的分解能でデータを提供する。当社のベンチマークは、ハンドヘルド携帯機器の重要な 使用事例を初めてカバーし、高解像度のDSLRカメラ画像を提供します。私たちは、データセットとオンライ ン評価サーバーをhttp://www.eth3d.netから入手できます。
  41. 41. 40 Poster2-1 6. Non-Contact Full Field Vibration Measurement Based on Phase-Shifting 振動計測システムは、業界で広く使用されています。加速度センサ、レーザ変位計、カメラでマーカを追跡 する方法など、様々な振動計測技術が提案されている。しかしながら、これらの方法は、1つの点のみが測定 され、マーカーを必要とすることを可能にする制限を有する。本発明者らは、位相シフトに基づく振動及び 形状の両方の新規の非接触全磁場測定技術を提示する。私たちの重要なアイデアは、振動する物体の位相シ フト誤差を分析するためにFFTを使用して振動する物体の周波数を取得することです。本発明者らの提案す るアルゴリズムは、フレーム間最適化及びピクセル間最適化を反復することによって位相シフト誤差を推定 する。我々のアプローチの特徴は、マーカやテクスチャなしで、異なる周波数の振動の表面を全領域で測定 することです。当社の開発したシステムは、デジタル光処理(DLP)プロジェクタとカメラ(毎秒100フレー ム)で構成された低コストのシステムです。実験の結果、物体の低周波振動を高い精度で非接触で測定でき ることが示された。また、振動物体表面の再構成を高精度に行うことができる。
  42. 42. 41 Poster2-1 7. A Minimal Solution for Two-View Focal-Length Estimation Using Two Affine Correspondences 2つのアフィン対応を用いた最小解を提示して、2つの半較正カメラ間の共通焦点距離および基本行列、すな わち共通焦点距離を除く既知の固有パラメータを推定する。 我々の知る限りでは、この問題は解決されてい ません。 提案手法は、局所アファイン変換から導出された線形制約を用いて点対応に基づく手法を拡張する。 得られた多変量多項式系は、隠れ変数技法によって効率的に解かれる。 局所親和性のジオメトリを観察し、 無効な根を排除する新規条件を導入する。 残りの候補の中から最良のものを選択するために、特に高レベル 雑音の場合の最近のものより優れた根選択技術が提案される。 提案された2点アルゴリズムは、合成データ と公的に利用可能な実像ペアの両方で検証される。 提案されたソリューションのMatlab実装がこのペーパー に含まれています。
  43. 43. 42 Poster2-1 8. PoseAgent: Budget-Constrained 6D Object Pose Estimation via Reinforcement Learning 最先端のコンピュータビジョンアルゴリズムは、次に検討すべき仮説について個別の選択を行うことによっ て効率を達成することが多い。これにより、計算資源を有望な候補に割り当てることができますが、そのよ うな決定は区別できません。結果として、これらのアルゴリズムはエンドツーエンドの方法で訓練するのが 難しい。本研究では、6Dオブジェクトの姿勢推定のための効率的なアルゴリズムを学習することを提案する。 我々のシステムは、ポーズ推定システムが現在CNNによってパラメータ化された確率論的ポリシーとなる強 化学習を用いて、既存の最先端のポーズ推定システムのパラメータを最適化する。さらに、計算時間を大幅 に短縮する効率的なトレーニングアルゴリズムを紹介します。我々は、学習された姿勢推定手順が限られた リソースをより有効に活用し、困難なデータセットの最先端技術を向上させることを経験的に示している。 我々のアプローチは、複雑なアルゴリズムパイプラインの微分可能なエンドツーエンドの訓練を可能にし、 所定の計算予算を最適に活用することを学ぶ。
  44. 44. 43 Poster2-1 9. An Efficient Background Term for 3D Reconstruction and Tracking With Smooth Surface Models 我々は、1つまたは複数のビューから観察されるオブジェクトの視覚的な船体内で滑らかなスプラインのよう な表面として表現される3Dモデルを縮小し制約するための新しい戦略を提示する。 この新しい「バックグラ ウンド」または「シルエット」という用語は、レイキャスティングまたはレイポテンシャルに基づく配合の 精度と、イメージプレーンの距離変換に基づく以前のアプローチの効率性を組み合わせたものです。 全体的 な定式化は、内部非線形最小化(レイキャスティング)と表面ジオメトリ、カメラポーズおよびデータ対応 の共同最適化を交互に行うことによって解決される。 3D再構成と物体追跡に関する実験は、新しい定式化が、 例えば非凸形状をモデル化する場合のように、既存の手法のいくつかの欠点を訂正することを示している。 さらに、我々の提案は、オブジェクトセグメンテーションの欠陥に対してより頑強であり、測定における不 確実性の存在を本質的に扱う(例えば、RGB-Dカメラによって提供される画像におけるヌル深度値)。
  45. 45. Poster2-2
  46. 46. 45 Poster2-2 1. Surface Motion Capture Transfer With Gaussian Process Regression キャプチャされた4Dモデル間でモーションを転送する問題を解決します。我々は特に、被験者間の動きを伝 播させることによって4Dデータセットを自動的に増大させる能力が、人間の視覚コーパス上に構築された最 近のビジョンアプリケーションの大部分に関心を持つヒト被験者に焦点を当てている。対応するキーポーズ の疎なセットが知られている2つの被験者のための4Dトレーニングセットが与えられると、我々の方法は、 新たに捕捉された動きを1つの被験者から別の被験者に移すことができる。訓練集合に関して非常に多様な入 力運動への伝達を一般化する目的で、この方法は、非線形姿勢補間に基づく新しい伝達モデルに寄与する。 ガウスプロセス回帰をベースにして、このモデルは、モーション転送中のポーズ相互依存性を考慮に入れて、 個々のモーションプロパティを捕捉して保持することを意図しています。私たちの実験では、既存のポーズ マッピング法よりも視覚的に定性的かつ定量的な改善が見られ、最先端技術と比較して本手法の汎化能力が 確認されています。
  47. 47. 46 Poster2-2 2. Visual-Inertial-Semantic Scene Representation for 3D Object Detection 我々は、電話から無人機までのモダンなモビルプラットフォームで普及しているビデオおよび慣性センサ (加速度計およびジャイロメータ)を使用して、3次元空間の物体を検出するシステムについて説明します。 慣性は、オブジェクトにクラス固有のスケールプリオーサーを課す能力を提供し、グローバルな方向参照を 提供します。空間におけるオブジェクトの意味(アイデンティティ)および構文(ポーズ)属性の事後的な 最小限の表現は、ローカリゼーションおよびマッピングフィルタによって維持され得る幾何学的な項と尤度 関数とに分解することができる。識別的に訓練された畳み込みニューラルネットワークによって近似するこ とができる。得られたシステムは、リアルタイムで因果的にビデオストリームを処理することができ、永続 的なシーン内のオブジェクトの表現を提供する:証拠とともにオブジェクトの存在に対する信頼が高まり、 以前に見られたオブジェクトは一時的に閉塞されても彼らの復帰は自動的に再検出をプライミングすると予 測されます。
  48. 48. 47 Poster2-2 3. Template-Based Monocular 3D Recovery of Elastic Shapes Using Lagrangian Multipliers 本論文では、固定単眼カメラからの弾性形状の3次元復元のための効率的なテンプレートベースの方法を提示 する。 オブジェクトの弾力性を利用することにより、非拡張性制約を使用するアイソメトリックメソッドと は対照的に、大きな範囲の変形を処理することができます。 我々の方法は、ラグランジュ乗数を用いた鞍点 問題として表現され、機械的制約と光学的制約の両方を統合し、ディリクレの境界条件を固定または自由に 統合する線形システムとなる。 我々は、材料の性質に関する事前知識が必要でないことを実験的に示す。こ れは、異なる種類の材料を有する弾性および非弾性の物体を用いた本発明の方法の一般的な有用性を示す。 既存の技術との比較は、25%から130%の範囲の歪みを有する合成および実際の弾性物体に対して行われ、 誤差が小さくなる。
  49. 49. 48 Poster2-2 4. Learning Category-Specific 3D Shape Models From Weakly Labeled 2D Images 最近、研究者は、クラスラベル、キーポイント、および地上真理図地形セグメンテーションからなる手動ア ノテーションを使用して、2D画像からカテゴリ固有の3D形状モデルを構築する大きなプロセスを実施しまし た。しかし、フィギュアグラウンド分割の注釈は、依然として労働集約的で時間がかかる。このような手作 業によるアノテーションを提供する負担をさらに軽減するために、我々は、弱くラベル付けされた2D画像の みを使用することによって、カテゴリー固有の3D形状モデルを学ぶための最も初期の努力を行っている。一 般的なオブジェクトセグメンテーションとカテゴリ固有の3次元形状再構成の基本的な関係を明らかにするこ とにより、クラスターレベルの学習カリキュラムに沿ってこれらの2つの問題を共同で解決する新しいフレー ムワークを提案します。困難なPASCAL VOCベンチマークの包括的な実験では、弱い教師付き学習フレーム ワークを使用して訓練されたカテゴリ固有の3次元形状モデルが、高価なマニュアルセグメンテーションアノ テーションを使用した最先端の手法のパフォーマンスにある程度まで近づく可能性があることが示されてい ます。さらに、この実験では、共通のオブジェクトセグメンテーションを支援するために3D形状モデルを使 用することの有効性も実証されています。
  50. 50. 49 Poster2-2 5. Simultaneous Geometric and Radiometric Calibration of a Projector-Camera Pair 本発明者らは、プロジェクタ - カメラ対の幾何学的 及び放射的較正を同時に可能にする新規な方法を提 示する。 シンプルで特殊なハードウェアを必要とし ません。 私たちは、特別に設計された投影パターン を、異なる測色特性の印刷されたパターンにあらか じめワープし、整列させます。 いくつかの方向でパ ターンをキャプチャした後、我々は、異なるカラー チャネルにおける2つのパターンのコーナ位置を推定 することによって幾何学的較正を実行する。 投影さ れた四角の内部に含まれる情報を使用して、プロ ジェクタのラジオメトリック較正を実行します。 我々の方法は、より効率的かつユーザフレンドリで ある一方で、すべてが別個の幾何学的および放射測 定の較正を必要とする現在の方法と同等であること を示す。
  51. 51. 50 Poster2-2 6. Learning Barycentric Representations of 3D Shapes for Sketch -Based 3D Shape Retrieval 2Dスケッチと3Dシェイプは2つの異種ドメインに由来するため、スケッチを使用して3Dシェイプを取得する ことは難しい問題です。本論文では、スケッチベースの3次元形状検索のための3次元形状の2次元投影の重 心を学習することを提案する。具体的には、まず、2つの深い畳み込みニューラルネットワーク(CNN)を使 用して、スケッチの深い特徴と3次元形状の2次元投影を抽出する。 3D形状の場合、複数の投影の深い特徴 のWasserstein重心を計算して重心表示を形成します。最後に、メトリックネットワークを構築することに より、差別的かつコンパクトな3D形状を学び、検索のためのスケッチ機能を学ぶために、深い特徴空間の3D 形状とスケッチのWasserstein重心に差別的な損失を定式化する。提案された方法は、SHREC'13およびSHR EC'14スケッチトラックベンチマークデータセットで評価される。最先端の手法と比較して、提案手法は検 索性能を大幅に向上させることができる。
  52. 52. 51 Poster2-2 7. Geodesic Distance Descriptors Gromov-Hausdorff(GH)距離は、距離空間間の距離を測定するために伝統的に使用されています。これ は非剛体形状の比較と等価曲面のマッチングに適合し、一方の面を他方の面に埋め込む際の最小の歪みとし て定義され、最適な対応はこの歪みを最小にするマップとして記述することができる。このような最小化を 解決することは、一致した表面に対してすべての対の測地線距離の事前計算および記憶を必要とする困難な 組み合わせ問題である。サーフェス上の関数をコンパクトに表現する一般的な方法は、ラプラス - ベルトラ ミ演算子(LBO)の主要な固有関数にそれらを投影することです。トランケートされたとき、LBOの基礎は 最小最小の意味で有界勾配をもつ関数を表現するのに最適であることが知られている。 Spectral-GMDSのよ うな方法は、このアイデアを利用して、切り詰められたスペクトル領域で動作することによってGH距離に関 連する最小化を簡素化し、効率的に近似し、ほぼ等角の形状のマッチングのための状態を得る。しかしなが ら、測地線距離のような表面上の特定の機能のみを考慮する場合、最適化された基礎はより良い代替案と考 えることができる。さらに、GH距離を近似する現在の単純化は、置換行列の低ランク近似および緩和による 誤差を導入する。 ここでは、測地距離のコンパクトな近似に最適な測地距離ベースをFrobeniusノルムに関して定義します。 Geodesic Distance Descriptor(GDD)を抽出するために提案された基準を使用します。測地距離の情報は、 基底関数の線形結合としてエンコードされます。次に、これらのアイデアを使用して、情報をほとんど失う ことなく、メトリックスペースの一致する問題を効率的かつ正確に近似する方法を示します。提案された基 底と記述子を効率的に近似するために、実際に測地距離をすべて計算して格納することなく、最近の方法を 取り入れています。これらの観察は、形状対応に非常に単純で効率的な手順を構築するために使用されます。 実験結果は、GDDが最先端の形状マッチング手順の精度と効率の両方を改善することを示している
  53. 53. Poster3-1
  54. 54. 53 Poster3-1 1. Self-Calibration-Based Approach to Critical Motion Sequences of Rolling-Shutter Structure From Motion 本稿では、ローリングシャッタ(RS)SfMのクリティカルモーションシーケンス(CMS)について考察する。 線形化された純回転を有するRSカメラモデルを用いて、RS歪みは、「虚数」カメラの2つの内部パラメータ と、レンズ歪みと同様の1パラメータ非線形変換とによって近似的に表現され得ることを示す。 次に、ス キューとアスペクト比が未知であり、画像シーケンスにおいて変化する、仮想カメラの自己較正として問題 を再定式化する。 この定式化では、CMSの一般的な表現を導出する。 我々は、我々の方法が最近文献で報 告されたCMSを説明し、縮退に対処するための新たな救済策を提示できることも示している。 我々の理論的 結果は実験結果と良く一致する。 ナイーブなバンドル調整を採用したときに見られる縮退と、私たちの方法 でそれらがどのように解決されるかを説明しています。
  55. 55. 54 Poster3-1 2. Semi-Calibrated Near Field Photometric Stereo 光源の強度が不明な近距離点光源(いわゆる半較正設定)の下で、測光ステレオの非線形問題に取り組んで います。 深度、アルベド、強度の強固な共同回復を目的とした変分アプローチが提案されている。 得られた 非凸モデルは、各サブ問題の構築が反復的に再重み付けされた最小二乗法を利用する、収束可能な交互最小 化スキームによって数値的に解決される。 特に、多様体最適化技術は、ランク1行列多様体に対応する部分 問題を解決するのに使用される。 実世界のデータセットの実験では、この新しいアプローチが収束に関する 理論的保証だけでなく、より正確なジオメトリを提供することが実証されています。
  56. 56. 55 Poster3-1 3. Semantic Multi-View Stereo: Jointly Estimating Objects and Voxels RGB画像からの高密度3D再構成は、オクルージョン、テクス チャレスまたは反射面、および他の課題のために非常に悪い問 題である。 我々は、これらのあいまいさに対処するために、オ ブジェクトレベルの形状を提案する。 この目的のために、多視 点の画像エビデンスを複数のオブジェクトからの3D形状情報と 統合する確率的モデルを作成する。 このモデルの推論は、シー ン内のオブジェクトの存在と正確な3Dポーズと同様に、シーン の高密度3D再構成をもたらす。 我々の手法は、入力形状では 捕捉されなかった詳細を復元することができ、画像の証拠が弱 い閉塞領域では入力モデルをデフォルトにする。 その確率的性 質のために、アプローチは、3Dモデルの近似ジオメトリに加え て、シーンに存在しない入力形状に対処することができる。 我々は、いくつかの挑戦的な屋内と屋外のデータセットについ て、そのアプローチを定量的に評価する。
  57. 57. 56 Poster3-1 4. Learning to Predict Stereo Reliability Enforcing Local Con sistency of Confidence Maps 信頼性測定は、ステレオマッチングアルゴリズムによって実行される信頼性の低いディスパリティ割り当て を推定し、最近証明されたように、いくつかの目的に使用することができる。このペーパーは、深いネット ワークによって、地元の一貫性の前提を利用した最先端の信頼措置の有効性を高めることを目指しています。 私たちは、ランダムフォレストとCNNに基づいた5つの成果の高いものを含む23の信頼度測定法、2つの一般 的なステレオアルゴリズムとKITTI 2012データセットの小さなサブセット(194フレームのうちの25)で ネットワークを訓練することで、実験結果は、我々のアプローチが、残りのフレームに対する23の信頼度測 定値のすべての有効性を劇的に増加させることを示している。さらに、再トレーニングをせずに、KITTI 20 15とミドルベリー2014のさらなる相互評価を報告します。これは、大幅に異なる入力データを処理する場合 でも、それぞれの信頼度に対して顕著な改善が得られることを示しています。私たちが知る限り、これは従 来のピクセル単位の信頼度推定を超えた最初の方法です。
  58. 58. 57 Poster3-1 5. The Misty Three Point Algorithm for Relative Pose 水中画像からのシーン再構成には、海洋研究およ びレクリエーション画像操作のための有用性があ るため、重要な関心がある。 本論文では、水中映 像の2つのビューカメラ動き推定のための新しいア ルゴリズムを提案する。 我々の方法は、水の減衰 特性によってもたらされる制約と色の外観に対す るその影響を利用して、水中カメラの2つの観察 ビューに対する点の深さの差を決定する。 さらに、 カメラの相対的姿勢を推定するために、このよう な観測点の3つの深度差を利用するアルゴリズムを 提案する。 未知の水中減衰係数が与えられた場合、 我々の方法は相対運動をスケールまで推定する。 結果は一般化されたカメラとして表されます。 実 際のデータとシミュレートされたデータの両方に ついて評価する。
  59. 59. 58 Poster3-1 6. The Surfacing of Multiview 3D Drawings via Lofting and Occlu sion Reasoning 近年、複数のビューからのシーンの3次元再構成が、孤立した特徴点、強度、または曲線構造を関連付ける方 法によって、印象的な進歩を遂げています。一般的な設定では、制御された取得、限られた数のオブジェク ト、オブジェクト上の豊富なパターン、または特定のモデルに従うオブジェクトカーブを必要とせず、これ らの方法の大部分は、再構成されたシーンの未構成ポイントクラウド、メッシュ、カーブのネットワークと して3D図面を作成することを除いていくつかの例外があります。しかし、ロボット工学、都市計画、工業デ ザイン、ハードサーフェスモデリングなどの多くのアプリケーションでは、明確な3D曲線、サーフェス、お よびそれらの空間的関係を作成する構造化表現が必要です。表面表現を再構成することは、計算された表現 にぶら下がる足場のように機能する3D図面によって制約を受けることができ、再構成の堅牢性と品質が向上 します。この論文では、表面再構成による3D描画を完了する方法の1つとして、ロフト・アルゴリズムによ るオクルージョンの推論を検討します。
  60. 60. 59 Poster3-1 7. A New Representation of Skeleton Sequences for 3D Action Re cognition この論文は、スケルトンシーケンス(すなわち、人間のスケルトンジョイントの3D軌道)を用いた3D動作認 識のための新しい方法を提示する。提案手法は、各スケルトンシーケンスを、深層ニューラルネットワーク を用いた空間時間特徴学習のために、数フレームからなる3つのクリップに変換する。各クリップは、スケル トンシーケンスの円柱座標の1つのチャネルから生成されます。生成されたクリップの各フレームは、スケル トンシーケンス全体の時間情報を表し、関節の間にある特定の空間的関係を組み込んでいる。クリップ全体 は、異なる空間関係を有する複数のフレームを含み、人間の骨格の有用な空間構造情報を提供する。深い畳 み込みニューラルネットワークを用いて、生成されたクリップのフレームからスケルトンシーケンスの長期 的な時間情報を学習し、MTLN(Multi-Task Learning Network)を使用して、生成されたクリップのすべて のフレームを並列に処理することを提案する行動認識のための空間構造情報を組み込むこと。実験結果は、 提案された新しい表現の有効性と、3次元動作認識のための特徴学習法を明らかに示している。
  61. 61. 60 Poster3-1 8. A General Framework for Curve and Surface Comparison and Registration With Oriented Varifolds このホワイトペーパーでは、曲線、曲線セット、サーフェスなどの方向付けされた幾何学的形状または無向 きの幾何学的形状間のデータ忠実度メトリックの構築に関する一般的な設定を紹介します。 これらのメト リックは、局所的な接線ベクトルまたは法線ベクトルの分布としての形状の表現と、これらの空間上の再現 カーネルの定義に基づいています。 1つの共通の設定で組み合わされ、現在および変数の以前のフレーム ワークを拡張する構造は、形状の任意の種類のパラメータを必要とせずに容易に計算することができ、ある 種の 例えば、不具合 悪いセグメンテーションから。 次に、形状比較、クラスタリング、異型登録などのさ まざまな問題で使用された場合、そのようなメトリックの汎用性と可能性について、合成例を用いて感覚を 与えます。
  62. 62. 61 Poster3-1 9. Learning to Align Semantic Segmentation and 2.5D Maps for Geolocalization 我々は、GPSによって提供された位置の粗い推定から 開始し、周囲の建物の単純な未テクスチャ2.5Dモデル を使用して、都市環境におけるジオローカリゼーショ ンのための効率的な方法を提示する。 我々は、ポーズ を最適化する新規で効率的で堅牢な方法である:入力 画像のセマンティックセグメンテーションとこの推定 からの建物のレンダリングを考慮して、ポーズ推定を 改善するための最良の方向を予測するためにディープ ネットワークを訓練する。 次に、良い姿勢に収束する までこのCNNを繰り返し適用します。 このアプローチ は、2.5Dモデルが広範に利用可能である一方で、取得 および適合することが困難な周囲の参照画像の使用を 回避する。 したがって、トレーニング中に見えない場 所にも適用することができます。
  63. 63. 62 Poster3-1 10. A Generative Model for Depth-Based Robust 3D Facial Pose T racking 重度の閉塞と任意の表情変動を伴う制約されていないシナリオでは、深さベースの堅牢な3D顔面ポーズ追跡 の問題を考慮する。 洗練された訓練や手作業による介入を必要とする従来の深さベースの差別的またはデー タ駆動型の方法とは異なり、我々は、その場での姿勢追跡と顔モデル適応を一体化する生成フレームワーク を提案する。 特に、顔モデルの根底にある分布と不確実性を生成し予測する柔軟性を持つ統計的な3次元顔 モデルを提案する。 さらに、ICPベースの顔面姿勢推定を用いる先行技術とは異なり、入力点群に対する顔 モデルの可視性に基づいて姿勢を正規化するレイ可視性制約を提案し、これはオクルージョンに対するロバ スト性を増強する。 BiwiおよびICT-3DHPデータセットの実験結果は、提案されたフレームワークが効果的 であり、最先端の深度ベースの方法を上回ることを示しています。
  64. 64. 63 Poster3-1 11. Fast 3D Reconstruction of Faces With Glasses 我々は眼鏡をかけた人々の高速3D顔再構成のための方法を提示する。 我々の方法は、再構築される顔が眼鏡 によって部分的に閉塞される場合を明示的かつロバストにモデル化する。 私たちは、データベースや学習を 必要とせずに、多種多様な形、色、スタイルに対応するシンプルで汎用的なモデルを提案しています。 私た ちのアルゴリズムはシンプルで高速であり、メモリとランタイムリソースの両方を少量しか必要とせず、商 品携帯電話で高速なインタラクティブ3D再構成が可能です。 合成データおよび実データに対する我々のアプ ローチの徹底的な評価は、眼鏡の明示的モデル化による優れた再構成結果を示す。
  65. 65. 64 Poster3-1 12. An Efficient Algebraic Solution to the Perspective-Three -Point Problem この作業では、3つの既知の基準点の観測からカメラの位置と姿勢を決定するための古典的な視点3点(P3 P)問題に対する代数的解を提示する。 従来のアプローチとは対照的に、三角測量系のシステムを定式化す るために、対応する幾何学的制約を採用することによって、カメラの姿勢を直接決定する。 これは、未知の 回転行列とそれに続くカメラの位置を決定するために、代数的アプローチに従って効率的に解かれる。 最近 の代替案と比較して、本発明の方法は、不要な(および数値的に不安定な)中間結果を計算することを回避 し、より低い計算コストで高い数値精度および堅牢性を達成する。 これらのメリットは、名目上の幾何学的 構成に近い公称および近似に近い両方のモンテカルロシミュレーションによって検証されます。 PnP問題を解いた強そうな手法(読んどきたい)
  66. 66. Poster4-1
  67. 67. 66 Poster4-1 1. Semantically Coherent Co-Segmentation and Reconstruction of Dynamic Scenes 本論文では、複数の静的カメラまたは移動カメラからの複雑な動的シーンの空間的および時間的にコヒーレ ントな意味的コセグメンテーションおよび再構成のためのフレームワークを提案する。セマンティック・コ セグメンテーションは、空間的にも、1つの時点でのビュー間でも、時間的にも、類似の形状および外観を有 する動的オブジェクトの間隔の広い時間間隔の間で、意味クラス・ラベルのコヒーレンスを利用する。セマ ンティック・コヒーレンスは、複雑なシーンのセグメンテーションと再構成を改善することを示しています。 ビューと時間の間に一貫したセマンティックラベリングを強制することによって、シーンの意味的に一貫性 のあるオブジェクトベースのコセグメンテーションおよび再構成のための共同式が提案される。意味論的ト ラッキングは、幅広く離れた動的オブジェクトのインスタンス間の意味ラベリングおよび再構成において時 間的な一貫性を強制するために導入されている。動的オブジェクトのトラックレットは、ジョイントセグメ ンテーションと再構成で利用された外観の事前の学習と前兆の形成を可能にします。手持ち式移動カメラを 用いた屋内および屋外の困難なシーケンスの評価は、セグメンテーションの精度の向上、時間的に一貫性の ある意味ラベル付けおよび動的シーンの3D再構成を示す。
  68. 68. 67 Poster4-1 2. On the Two-View Geometry of Unsynchronized Cameras 我々は、複数の非同期カメラからのビデオシーケンスからカメラジオメトリと時間シフトを同時に推定する ための新しい方法を提示する。 基本行列または画像間の時間シフトが未知のホモグラフィの同時計算のため のアルゴリズムが開発されている。 我々の方法は、最小限の対応関係を使用する(基本行列では8、ホモグ ラフィでは4半分)ので、RANSACを使用したロバスト推定に適しています。 さらに、我々は、数秒までの 正しい時間シフトを見いだして、大幅に非同期であるシーケンスに対する適用性を拡張する反復アルゴリズ ムを提示する。 我々は、合成された広範囲の現実世界のデータセットの方法を評価し、その結果は、カメラ 同期の問題に対する幅広い適用性を示している。 Microsoft
  69. 69. 68 Poster4-1 3. Using Locally Corresponding CAD Models for Dense 3D Recons tructions From a Single Image 我々は、1つの画像内に2次元ランドマークとシルエットのセットが与えられた場合、物体の密な3次元形状 を推定する問題を調査する。このような問題に取り組む前に、密集したCADモデルの辞書があります。しか し、十分に大きなCADモデルの辞書を使用することは、一般的に計算上実行不可能である。一般化を促進す るための辞書学習の一般的な戦略は、辞書要素の線形結合を可能にすることである。しかし、これもまた、 大部分のCADモデルをグローバルな高密度対応に容易に配置することができないため、問題があります。本 稿では、2ステップ戦略を提案する。まず、直交マッチングを使用して、辞書内の「最も近い」単一のCADモ デルを投影画像に対して迅速に選択します。第2に、局所的な高密度対応に基づく新しいグラフ埋め込みを使 用して、CADモデルの疎な線形結合を可能にする。我々は、合成シナリオと実世界シナリオの両方で実験的 にフレームワークを検証し、3Dメッシュ再構成と容積表現の両方に対する我々のアプローチの優位性を実証 する。
  70. 70. 69 Poster4-1 4. A Clever Elimination Strategy for Efficient Minimal Solvers 私たちは、コンピュータビジョンの最小限のソルバを体系的に生成する新しい洞察を提示します。これによ り、より小さくて速いソルバが実現します。 多くの最小限の問題公式は、画像測定値が線形方程式のみに入 る線形および多項式の結合されたセットである。 このようなシステムを解くことは、線形方程式に現れない すべての未知数をまず除去し、残りの未知数に解を拡張することによって有用であることを示す。 これは、 リフトによる線形化によって完全非線形システムに一般化することができます。 このアプローチは、未知の 焦点距離および/または放射状歪みを有する部分的に較正された相対的なカメラポーズ計算の3つの問題にお いて、より効率的なソルバーにつながることを実証する。 また、以前には知られていなかった部分的に較正 されたカメラの基本行列について、新たな興味深い制約を生成する。
  71. 71. 70 Poster4-1 5. Convex Global 3D Registration With Lagrangian Duality ユークリッド変換による3Dモデルの登録は、コンピュータビジョンの多くのアプリケーションの中核となる 基本的なタスクです。この問題は、回転制約が存在するために非凸形であり、従来の局所最適化方法を局所 極小に詰まる傾向にする。この論文では、一般的な幾何学的位置合わせモダリティ(つまり、ポイントツー ポイント、ポイントツーライン、ポイントツープレーン)を統合した統一された定式化によって、さまざま な3D登録問題でグローバルに最適な変換を見つけることに取り組んでいます。この定式化は、最適化問題を 対応の数と性質の両方から独立させる。 我々の提案の主な新規性は、この問題のための強化されたラグランジュ二重緩和の導入であり、以前の同様 のアプローチ[32]を上回っている。実際、理論的な保証がないにもかかわらず、合成と実際の実験の両方で 網羅的な実験的評価は常に、二元性理論を利用して保証された世界的最適解を回復させる厳しい緩和をもた らした。 したがって、我々の手法は、より計算集中的なBranch and Bound法に基づいて最先端の代替案[34]の時間 の一部を実行しながら、グローバルな最適性保証を用いて効果的に3D登録を解決することを可能にする。
  72. 72. 71 Poster4-1 6. DeMoN: Depth and Motion Network for Learning Monocular Stereo 本稿では、学習問題として動きから構造を定式化する。 拘束されて いない連続画像から奥行きとカメラの動きを計算するために、畳み 込みネットワークをエンドツーエンドでトレーニングします。 この アーキテクチャは、複数の積み重ねられたエンコーダ/デコーダ ネットワークから構成されており、コア部分はそれ自体の予測を改 善することができる反復的なネットワークである。 ネットワークは、 深度と動きだけでなく、表面法線、画像間のオプティカルフロー、 マッチングの信頼度を推定します。 アプローチの重要な要素は、空 間的な相対的な違いに基づくトレーニングの喪失です。 モーション メソッドの従来の2フレーム構造と比較して、結果はより正確で堅 牢です。 一般的な単一画像ネットワークの深さとは対照的に、De MoNはマッチングの概念を学び、したがって、トレーニング中に見 られない構造によく一般化します。
  73. 73. 72 Poster4-1 7. 3D Bounding Box Estimation Using Deep Learning and G eometry 我々は、単一の画像から3次元物体の検出および姿勢推定のための方法を提示する。物体の3次元方向を後退 させるだけの現行の技術とは対照的に、本発明の方法は、まず深い畳み込みニューラルネットワークを用い て比較的安定した3次元物体特性を回帰し、次にこれらの推定を2次元物体バウンディングボックスによって 提供される幾何学的制約と組み合わせて、バウンディングボックス。第1のネットワーク出力は、新規のハイ ブリッド離散連続損失を用いて3D物体の方向を推定し、これはL2損失よりも顕著に優れている。 2番目の出 力は、代替案と比較して分散が比較的小さい3Dオブジェクトの次元を回帰し、多くのオブジェクトタイプで よく予測できます。これらの推定値と、2D境界ボックスによって課せられた平行移動の幾何学的制約と相 まって、安定した正確な3Dオブジェクトポーズを回復することができます。我々は、3D方位推定の正式なメ トリックと、得られた3D境界ボックスの精度の両方において、困難なKITTIオブジェクト検出ベンチマーク [2]で我々の方法を評価する。概念的には単純であるが、我々の方法は、セマンティックセグメンテーション、 インスタンスレベルセグメンテーション、フラットグラウンドプライオリティ[4]、サブカテゴリ検出[23] [24]を活用するより複雑で計算コストの高い手法を凌駕する。離散連続損失は、Pascal 3D +データセット の3D視点推定の最先端技術の結果ももたらします[26]。 Zoox(激強自動運転ベンチャー)
  74. 74. 73 Poster4-1 8. A Dataset for Benchmarking Image-Based Localization 画像ベースのローカリゼーションのベンチマーキングのための斬新 なデータセットが提示される。視覚的な場所認識とローカリゼー ションに関する研究の関心が高まっているため、過去数年間にいく つかのデータセットが公開されています。既存のデータセットの明 らかな制限の1つは、クエリーイメージの正確なグランドトゥルー スカメラポーズは、意味のある3Dメトリックシステムでは利用で きないということです。これは、部分的には、これらのデータセッ トの基礎となる3DモデルがStructure from Motionメソッドから再 構築されているためです。現在のところ、ローカリゼーションの精 度のメトリック評価にはほとんど注意を払っていません。本稿では、 高度な視覚的位置検出技術が要求精度の高いタスクに適用できるか どうかの問題に取り組んでいます。我々は、カメラとLiDARスキャ ナを用いて、大きな屋内環境のトレーニングデータを取得しました。 さらに、携帯電話のカメラで2000を超えるクエリ画像を収集しま した。 LiDARポイントクラウドを参考にして、世界座標系で正確 に6自由度のカメラポーズを推定するための半自動アプローチを採 用しました。提案されたデータセットは、公正で直感的なメトリッ クを使用して、さまざまなアルゴリズムのパフォーマンスを定量的 に評価することを可能にします。
  75. 75. Poster4-2
  76. 76. 75 Poster4-2 1. SGM-Nets: Semi-Global Matching With Neural Networks Microsoft 本稿では、セミグローバルマッチング(SGM:Semi-Global Matching)を用いた高密度視差マップを予測 するためのディープニューラルネットワークについて述べる。 SGMは、高精度で計算速度が速いため、実 際のシーンで広く使用されている正規化方法です。 SGMは正確な結果を得ることができるが、視差マップ の滑らかさおよび不連続性を制御するSGMのペナルティパラメータの調整は不安であり、経験的方法が提 案されている。我々は畳み込みニューラルネットワークからなるSGM-Netsと呼ばれる学習ベースのペナル ティ推定法を提案する。 SGM-Netsには小さな画像パッチとその位置が入力され、3Dオブジェクト構造の ペナルティが予測されます。ネットワークを訓練するために、実際の環境でLiDARセンサによって捕捉され たようなまばらに注釈された視差マップを使用することができる新規な損失関数を導入する。さらに、物 体構造をより識別的に表現するために、正または負の視差変化に応じて異なるペナルティを展開する新規 なSGMパラメータ化を提案する。当社のSGM-Netsは、KITTIベンチマークデータセットの最先端技術の 精度を上回りました。
  77. 77. 76 Poster4-2 2. Stereo-Based 3D Reconstruction of Dynamic Fluid Surfaces by Global Optimization 動的流体表面の3次元再構築は、コンピュータビジョンにおけるオープンで困難な問題である。各サーフェ スポイントを独立して再構築し、しばしばノイズ深度マップを返す従来のアプローチとは異なり、我々は すべての3Dポイントの深度と法線を同時に回復する新規なグローバル最適化アプローチを提案する。伝統 的な屈折ステレオ設定を使用して、予め生成されたランダムパターンの波状の外観を捕捉し、パターンを 追跡することによって、捕捉された画像と既知の背景との間の対応を推定する。光が流体界面を1回だけ屈 折すると仮定すると、クロスビューの標準的な一貫性制約と単一ビューの標準的な一貫性制約の両方を組 み込んだ目的関数を最小にします。重要なアイデアは、スネルの法則に基づいた光屈折に必要な法線は、1 つのビューから2番目のビューだけでなく、ローカル3Dジオメトリから推定されるものと一致する必要が あるということです。さらに、流体の屈折率を推定するための有効な再構成誤差メトリックが設計される。 我々は、提案された手法が正確であり、従来のステレオベースの方法より優れていることを示す合成デー タと実データの両方に関する実験結果を報告する。
  78. 78. 77 Poster4-2 3. Fine-To-Coarse Global Registration of RGB-D Scans 室内環境のRGB-Dスキャンは、不動産、インテリアデザイン、バーチャルリアリティなど、多くのアプリ ケーションにとって重要です。 しかし、長いビデオシーケンスにわたってハンドヘルドカメラからRGB-D 画像をグローバルに一貫した3Dモデルに登録することは依然として困難です。 現行の方法は、しばしば、 追跡またはドリフトを失うことがあり、したがって、大きな環境(例えば、異なる部屋の平行壁)におけ る顕著な構造を再構成することができない。 この問題に対処するために、細かいスケールでの堅牢な登録 を活用して、粗いスケールでの新しい対応や構造的制約の種子検出と施行を活用する「細かいことから粗 い」グローバル登録アルゴリズムを提案します。 グローバル登録アルゴリズムをテストするために、SUN 3Dデータセットからの25シーンの手動でクリックされたポイント対応を10,401個のベンチマークで提供 します。 このベンチマークの実験では、我々のfine-to-coarseアルゴリズムが従来の方法よりも長いRGB- Dシーケンスを登録することがわかりました。
  79. 79. 78 Poster4-2 4. Analyzing Computer Vision Data - The Good, the Bad and the Ugly 近年、コンピュータービジョン(CV)アルゴリズムを訓練し評価するために、多数のデータセットが公開 されています。これらの貴重な貢献は、CVソリューションを、自律走行などの安全関連アプリケーション に使用できるレベルまで押し上げるのに役立ちました。しかし、CV評価のためのテストデータの品質およ び有用性に関する主な質問は未だに答えられていない。研究者とエンジニアは、可能な限り多くのテスト データを使用して、すべてのテストケースをカバーしようとします。この論文では、この課題に対する別 の解決方法を提案します。 CVドメイン内の潜在的な危険のリストであるCV-HAZOPチェックリストの改良 版をベースにしたデータセット分析の方法を紹介します。ステレオビジョンを例にとって、我々は過去20 年間の28のデータセットの広範な調査を提供する。私たちは、カスタマイズされたチェックリストを作成 し、データセットMiddlebury、KITTI、Sintel、Freiburg、およびHCIに適用して、徹底的な特性評価と定 量的比較を提示します。ハザードフレームが難しいフレームと相関していることを示す、解析されたデー タセットに9つの最先端のステレオマッチングアルゴリズムを適用することにより、難しいステレオ状況の 識別のためのチェックリストの有用性を確認します。困難なデータセットは、小さなサブセットであって も意味のあるアルゴリズム評価が可能であることを示しています。最後に、将来のデータセット作成に参 加したい研究者のインスピレーションとして、現在のデータセットではまだカバーされていないテスト ケースのリストを提供します。
  80. 80. 79 Poster4-2 5. Product Manifold Filter: Non-Rigid Shape Correspondence via Kernel Density Estimation in the Product Space 変形可能な形状間の対応関係の計算のための多くのアルゴリズムは、記述子空間内の最近隣一致のいくつ かの変形に依存する。 これは、例えば、機能対応フレームワークの後処理段階として使用される様々な点 ごとの対応回復アルゴリズムである。 そのような頻繁に使用される技法は、考慮される形状について暗黙 的に限定的な仮定(例えば、近似測定)を行い、実際には精度の欠如および劣悪な外見の結果を生じる。 私たちは、単射対応を保証し、はるかに高い精度と滑らかさを生み出すことができる代替の回復技術を提 案します。 他の方法とは異なり、我々のアプローチは、解析された形状が等尺性であるという仮定に依存 しない。 カーネル密度推定の統計的枠組みから提案手法を導出し、いくつかの困難な変形可能な3D形状 マッチングデータセットの性能を実証する。
  81. 81. 80 Poster4-2 6. Unsupervised Vanishing Point Detection and Camera Calibr ation From a Single Manhattan Image With Radial Distortion この記事では、単一画像からの放射状歪みを伴うカメラの自動較正に関する。正方形ピクセルとゼロス キューの軽い仮定の下では、シーン内の線が画像内の円に投影され、焦点線と放射状の歪みのあいまいさ までカメラを較正するには3本の線で十分であることが知られている。較正結果は、線が短い円弧に投影さ れる傾向があるため、達成が難しい正確な円の推定に大きく依存します。この問題を克服するために、短 い円弧エッジを仮定すると、対応する円の中心を通る線をロバストに決定することが可能であることを示 す。これらのラインは、以後、サーキュララインのライン(Lines of Circle Centers(LCC))と呼ばれ、 平行線のセットを検出し、マンハッタンに関する歪み、焦点距離、およびカメラの向きの中心および量を 含む較正パラメータを推定する新しい方法で使用されるフレーム。半合成画像と実画像の両方で広範な実 験を行った結果、より多くの情報を提供しながら、単一画像からの教師なし較正における最先端の手法よ りも優れています。
  82. 82. 81 Poster4-2 7. Toroidal Constraints for Two-Point Localization Under High Out lier Ratios モデルサイズが大きくなると2D-3Dの一致がより曖昧になるため、クエリーイメージを3Dモデルに対して 大規模にローカライズすることは難しい問題です。これは、非常に低いinlier比率を扱うことができる姿勢 推定戦略の必要性を作り出す。本稿では、2D-3Dマッチングプロセスから得られる幾何学的情報の新しい 洞察を引き出す。現代の記述子は視点の大きな変化に対して不変ではないので、クエリー記述子に最も近 い所与の点を三角測量するために使用される空間の光線を見つけることができる。 2つの対応がカメラを トーラスの表面上に置くことを制限することはよく知られている。三角測量の方向性の知識を追加するこ とで、2つのマッチだけからカメラの位置を近似することができます。この位置を1マイクロ秒未満で計算 できる幾何学的ソルバーを導出する。このソルバーを使用して、一致数に2次的に比例する単純で強力な外 れ値フィルターを提案します。私たちはソルバーの精度を検証し、現実の環境での本手法の有用性を実証 します。
  83. 83. 82 Poster4-2 8. 4D Light Field Superpixel and Segmentation 2D画像のスーパーピクセルセグメンテーションは、多くのコンピュータビジョンタスクで広く使用されて きた。しかし、ガウスイメージングの原理に限定されているが、デフォーカスおよびオクルージョン境界 領域におけるあいまいさに対する完全なセグメンテーション解決法はない。本稿では、光空間の画像画素、 すなわち、光線の本質的な要素を考慮し、曖昧さを排除するライトフィールドスーパーピクセル(LFSP) セグメンテーションを提案します。 LFSPは最初に数学的に定義され、次にLFSP自己相似性と呼ばれるリ フォーカス不変メトリックがセグメント化性能を評価するために提案される。ライトフィールド内に80個 の近傍を含むクリークシステムを構築することにより、ロバストな再焦点不変LFSPセグメンテーションア ルゴリズムが開発される。合成フィールドライトと実ライトフィールドの両方のデータセットの実験結果 は、従来の評価メトリクスの点で最先端のものより優れていることを示しています。さらに、異なるライ トフィールドリフォーカスレベル下でのLFSP自己相似性評価は、提案されたアルゴリズムのリフォーカス 不変性を示す。
  84. 84. 83 Poster4-2 9. Exploiting Symmetry and/or Manhattan Properties for 3D Obj ect Structure Estimation From Single and Multiple Images 多くの人工物は、固有の対称性とマンハッタン構造を持っています。正射投影モデルを仮定することによ り、この論文は、入力が同じカテゴリ、例えば複数の異なる車からの単一または複数の画像である場合に 生じる、対称および/またはマンハッタン構造のキューを使用した3D構造およびカメラ投影の推定に取り組 む。具体的には、単一の画像の場合の分析は、マンハッタンだけでカメラ投影を復元するのに十分である ことを意味し、その後、3D構造を一意的に対称性を利用して再構築することができる。しかしながら、マ ンハッタン構造は、閉塞のために単一の画像から観察することは困難であり得る。この目的のために、 我々は対称性を利用することもできるが、マンハッタン軸を必要としない多重画像の場合に拡張する。 我々は、対称性を利用し、入力と同じカテゴリーの複数の画像を使用して、運動方法から新しい剛性構造 を提案する。 Pascal3D +データセットの実験結果は、本手法がベースライン手法よりも著しく優れている ことを示しています。

×