SlideShare a Scribd company logo
1 of 37
Download to read offline
Learning Spatial Common Sense with
Geometry-Aware Recurrent Networks
Novel View Synthesisとは
Novel View Synthesis
• いくつかの観測から, 別視点の画像を予測
するタスク
• 脳科学の分野における⼼的回転(メンタル
ローテーション)という現象と関連が深い
• ⼈間は⼼に思い浮かべたイメージを回転さ
せることができる
• CVpaperchallengeのNovel View
Synthesisの発表が⾯⽩かったので関連
論⽂を紹介します
ShepardとMetzlerの実験
よくわかる認知科学(乾、吉川、川⼝
編、2011、ミネルヴァ書房)pp.61
例 : Generative Query Network (GQN)
• Novel view synthesisのタスクを通して, 空間の情報を集約するシー
ン表現 (scene representation) を獲得
• Eslamiらは, これをconditional VAEの枠組みで実現する⼿法を提案
• ⽇本語だと⾦⼦さん, 鈴⽊さんの解説資料がわかりやすいです
• https://www.slideshare.net/MasayaKaneko/neural-scene-
representation-and-rendering-33d
• https://www.slideshare.net/DeepLearningJP2016/dlgqn-111725780
S. Eslami et al. Neural Scene Representation
and Rendering, Science, 2018.
Novel View Synthesis
• cvpaperchallengeの発表では, タスクの概要・論⽂の紹介・未解決問題な
どを紹介していただいた
• 未解決問題は以下の項⽬等が挙げられた
• カテゴリに依存しない新規視点画像⽣成
• 複数物体のnovel view synthesis
• 実データにおけるnovel view synthesis
• 未知視点への汎化
• 発表を聞いて, 近年はシーン表現をどのようにモデリングするかという所
が重要そうだと思った
Novel View Synthesis論⽂
• Scene Representation Networks: Continuous 3D-Structure-Aware Neural Scene
Representations
• Visual Object Networks: Image Generation with Disentangled 3D Representations
• Transformable Bottleneck Networks
• DeepVoxels: Learning Persistent 3D Feature Embeddings
• Geometry-Aware Recurrent Neural Networks for Active Visual Recognition
• Multi-view to Novel view: Synthesizing novel views with Self-Learned Confidence
• Transformation-Grounded Image Generation Network for Novel 3D View Synthesis
• View Synthesis by Appearance Flow
• Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Novel View Synthesis論⽂
• Scene Representation Networks: Continuous 3D-Structure-Aware Neural Scene
Representations
• Visual Object Networks: Image Generation with Disentangled 3D Representations
• Transformable Bottleneck Networks
• DeepVoxels: Learning Persistent 3D Feature Embeddings
• Geometry-Aware Recurrent Neural Networks for Active Visual Recognition
• Multi-view to Novel view: Synthesizing novel views with Self-Learned Confidence
• Transformation-Grounded Image Generation Network for Novel 3D View Synthesis
• View Synthesis by Appearance Flow
• Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
今⽇発表するやつ
Learning Spatial Common Sense with
Geometry-Aware Recurrent Networks
書誌情報
• CMUの研究チームによる論⽂
• last authorのFragkiadaki⽒は機械に映画を理解させるのが⽬標らしい
• 本研究もそのために必要な技術という位置ずけ?
• CVPR2019 oral にそれぞれ採択
• この研究は、多視点の情報を3Dの潜在表現として統合する⼿法の提案を
している
• geometryの知識をdeep learningのモデルに導⼊
• オクルージョンに強い
• 特に記載のない場合, 図は本論⽂からの引⽤
概要
• 複数の2D画像から抽出した特徴を3Dの潜在表現に統合する⼿法の提案
• 提案⼿法では微分可能な幾何的な操作(投影, 再投影, ego-motion estimationなど) を
deep learningに取り⼊れた
• 現実世界と3D featureの位置的な関連は保存している
• 提案したモデルは短い画像列から新規視点のviewを予測するタスクで学習
• さらに, 3D segmentationや3D object detectionも学習可能
• 特に検出の問題では物体の永続性を考慮した検出 (オクルージョンに強い)
• 実体を持つvisual agentにspatial common senseを持たせるために必要な
技術であると結論づけた
背景, モチベーション
• 近年の画像認識モデルは⼈間が持つ物体の永続性や空間認
識能⼒を持ち合わせていない
• 動画で物体がすれ違った時に, 隠れている部分にも物体は存在し
たままのはず (永続性)
• このような能⼒は 画像+ラベル のデータを⽤いた教師あり学習
では獲得されない
Ø 新しいモデルを提案する必要がある
• 2D画像のシーケンスを3D featureに統合するGeometry-
aware RNNの提案
1. 2D featureを3D空間に逆投影 (unprojection)
2. ego-motionの予測
3. GRUでシーンの3D featureを更新
• 提案⼿法は, SLAMから着想を得た部分が⼤きい
提案⼿法のadvantage
• 新規視点予測のタスクにおける汎化性能が⾼い
• geometryを考慮しない⼿法 (GQN) の性能を⼤きく上回る
• ただし, ego-motionの推定をせずGTを使った場合であることに注意
• 3D segmentationや3D object detectionにも適⽤可能
• 視点の変化に伴う⼀時的なオクルージョンに頑健な検出結果を得た
Ø物体の永続性 (object permanence) を理解した認識⽅法である!
• 実装公開あり
• https://github.com/ricsonc/grnn
提案⼿法
• 提案⼿法 (上図) は4つのポイントからなる
1. Unprojection
2. Egomotion estimation and stabilization
3. Recurrent map update
4. Projection and decoding Given
Unprojection
1. CNN (2D U-net) で2D特徴マップを抽出
2. 2D特徴マップを3D空間に逆投影
3. depthマップから同じサイズの3D occupancy gridを作成 (物体がある位置は1, それ以外は0にな
るテンソル)
4. 3D U-netを⽤いて3D feature !𝑉# を抽出
①
②
④
Egomotion estimation and stabilization
• 視点は距離を変えずに, ⾓度のみ変化するとい
う仮定
• 新しい視点のから作成した3Dテンソル !𝑉# を,
いくつかの異なる⾓度で回転させる → !𝑉$%#
• 考えられる⾓度の数だけ !𝑉$%# を作成
• その時刻の3D feature memoryと内積をとり
最もスコアの⾼い⾓度を推定したego-motion
とする → !𝑉#
&
• 実際にはスコアで重み付け平均をとる処理を
⾏なっている
• 推定した⾓度で再度変換を⾏なった後,
GRUに⼊⼒
Recurrent map update
• Egomotion estimationにより向きを合わせた3D
feature !𝑉#
& を3D convolutional Gated Recurrent
Unit (GRU) layerに⼊⼒
• 隠れ状態の3D feature memory : 𝑚#を更新していく
• 𝑚#の初期値は0とした
• Novel View PredictionのタスクではGRUを使わず
に平均をとる処理でも同じような性能が得られた
Projection and decoding
• 得られた3D feature memory 𝑚#を⽤いてタスクを
⾏う部分のネットワーク構造
• クエリの視点 : 𝑞 を与え, 𝑚# を変換
• 各depthの値に応じた2D featureに投影しstack →
𝑝*
• 𝑝*をconvLSTMで 𝑞 に対応するRGB画像へdecode
• 物体のvisibilityは明⽰的には与えずNNの計算に任
せる
Ø ⾏うタスクとしてはview predictionと3D
MaskRCNNがある
Projection and decoding
• View predictionの場合は𝑚#を右の図の
ようにdecodeして画像をレンダリング
する
• 3D MaskRCNNでは, 𝑚# の候補領域の
部分をROI poolingして, その部分を
decodeすることにより物体マスクを⽣
成
実験
• 検証したいのは以下の問い
1. GRNNsはspatial common senseを学習するか
2. geometryを考慮したネットワーク構造はspatial common senseを獲得するの
に必要か
3. GRNNsの性能について
• spatial common senseは, ⼈間が持つ空間認識能⼒全般を指す (広い意味)
• 3D shapeは2D平⾯を膨らませることで⽣成可能
• シーンは物体から構成される
• 3次元物体は交差しない
• 物体は急に存在を消したりしない
View prediction
• 複数画像の⼊⼒を元に, 新しい視点の画像を予測
するタスク
• 実験に⽤いたデータセット
• ShapeNet : 学習データは2つの物体を観測するという設定で
準備
• Shepard-metzler : テトリスみたいなやつ
• Rooms-ring-camera dataset from : 部屋の中にランダムに物
体があるようなデータセット
• ⽐較対象 : GQN
• 条件を揃えるため, 提案⼿法でdepth mapのGTは⽤いず, ego-
motionのGTは⽤いた
View prediction
• 再構成誤差は提案⼿法の⽅が⼩さい
• より正確に予測ができた
View prediction
テスト時のみ物体を4つに増やす場合
↑の結果は提案⼿法の⾼い汎化性能を証明
(未知の設定でもよく予測できる)
View prediction
• 特徴表現の⾜し算・引き算
3D object detection and segmentation
• 具体的にはinstance segmentationのタスクを⾏なっている
• ShapeNetでデータセットを作成
• mean Average Precision (mAP)で評価
• 4つの設定で検証
• geometry-awareでないモデル + ego-motionのGT + depthのGT
• GRNN + ego-motionのGT + 推定したdepth
• GRNN + ego-motionのGT + depthのGT
• GRNN + 推定したego-motion + depthのGT
• 両⽅推定するのはやらないの…?
3D object detection and segmentation
• GRNN + ego-motionのGT + depthのGT の結果が最も良い (それはそう)
• mAP0.75においてはGRNNはgeometry-awareでないモデルよりも良い結果
• geometry-awareな提案⼿法の優位性は⽰せた
• ego-motionとdepthを両⽅推定できるとさらに良さそう
3D object detection and segmentation
• 複数の視点の観測を統合することで, オクルージョンに頑健な検出を実現
まとめ
• spatial common senseを獲得するため, 2D画像列から3D featureを⽣成す
るネットワーク構造を提案
• unprojection, ego-motion estimationなど, 微分可能なgeometricな処理を
⽤いることにより実現
• 新規視点予測のタスクにおいて, 低い再構成誤差や⾼い汎化性能を⽰した
• 3D object detection & segmentationにおいては, オクルージョンに頑健
な検出ができたことを確認
• Future works
• 現実のデータ・動的なシーンなどに適⽤可能なモデルの提案
• 4Dテンソルのスパース性を⽤いた計算効率の向上
関連研究
• Geometry-Aware Recurrent Neural Networks for Active Visual Recognition
• NeurIPS 2018に採択
• 同じ研究グループの論⽂
• 同様のシステムを動的に観測位置を変化させるエージェントに適⽤
• よりinformativeな⽅向を視点を動かす⽅策を学習できた
R. Cheng et al. “Geometry-Aware Recurrent Neural Networks for Active
Visual Recognition”, NeurIPS, 2018.
R. Cheng et al. Supplemental materials of “Geometry-Aware Recurrent
Neural Networks for Active Visual Recognition”, NeurIPS, 2018.
おまけ : Novel View Synthesis サーベイ
View Synthesis by Appearance Flow
• Novel view synthesis のタスクを, 2D画像からのフロウを推定することにより解
いた。
• フレームワーク全体は下図のようになる。これは⼀気通貫に学習することができ
る。
T. Zou et al. “View Synthesis by Appearance Flow”, in ECCV, 2016.
Transformation-Grounded Image Generation
Network for Novel 3D View Synthesis
• NovelViewSynthesisのタスクにおいて、新規視点でのオブジェクトのうちソー
ス画像で⾒えている部分はそれをコピーして⽤い、残りの部分はGANで⽣成する
ような枠組みを提案した。ネットワークはdisocclusion-aware appearance flow
network (DOAFN) とcompletion networkから構成される。
• 先⾏研究のAppearance Flow Network (AFN) よりもよい結果を得た。
E. Park et al. “Transformation-Grounded Image Generation Network for Novel 3D View Synthesis”, in CVPR, 2017.
Visual Object Networks: Image Generation with
Disentangled 3D Representations
• 3Dを考慮した画像⽣成を⾏う⼿法の提案
• 3D shapeの⽣成→ターゲット視点に対応した深度画像とマスクに変換→
テクスチャコードを与えて画像にCNNでレンダリング
J. Zhu et al. “Visual Object Networks: Image Generation with Disentangled 3D Representations”, in NeurIPS, 2018.
Multi-view to Novel view: Synthesizing novel views
with Self-Learned Confidence
• 複数視点の画像から、新規視点の画像を⽣成する⼿法の提案。フレームワークはFlowPredictorと
Recurrent Pixel Generatorからなり、前者はソース画像からターゲット画像へのフロウを推定し、
後者は⼊⼒から直接画像を復元することを試みる。最後にこれらを確信度で重み付けをして統合す
る。
• 3DCGのオブジェクトを⽤いて実験を⾏い当時のSOTAとなった。
S. Sun et al. “Multi-view to Novel view:
Synthesizing novel views with Self-Learned
Confidence”, in ECCV, 2018.
Transformable Bottleneck Networks
• 2D画像をCNNにより3Dの編集ができるようにする⼿法の提案。
• 画像から3D featureを抽出し、そこにターゲットポーズに関する変形を⼊れたのち2Dへ
の投影を⾏い、画像の再構成など後段のタスクを⾏う。
• これにより剛体変換にとどまらない3Dを考慮した画像編集を⾏うことができる。
K. Olszewski et al. “Transformable Bottleneck Networks”, 2019.
DeepVoxels: Learning Persistent 3D Feature
Embeddings
• 画像シーケンスを1つのボクセル表現に落とし込む⼿法の提案。
• 提案⼿法のフレームワークは以下の順で処理を⾏う。
• 画像から2D featureを抽出→2D featureを3D featureに再投影→これらを画像シーケンスについて⾏いGRUで統合
→3D featureをターゲットの視点へ投影し画像を再構成
• この再構成誤差により全体のフレームワークの学習を⾏う。
• 提案⼿法はnovel view synthesisの性能が良い。
V. Sitzmann et al. “DeepVoxels: Learning Persistent 3D Feature Embeddings”, in CVPR, 2019.
DeepVoxels: Learning Persistent 3D Feature
Embeddings
V. Sitzmann et al. “DeepVoxels: Learning Persistent 3D Feature Embeddings”, in CVPR, 2019.
参考⽂献
• S. Eslami et al. Neural Scene Representation and Rendering, Science, 2018.
• T. Zou et al. “View Synthesis by Appearance Flow”, in ECCV, 2016.
• E. Park et al. “Transformation-Grounded Image Generation Network for Novel 3D View Synthesis”, in CVPR,
2017.
• J. Zhu et al. “Visual Object Networks: Image Generation with Disentangled 3D Representations”, in NeurIPS,
2018.
• S. Sun et al. “Multi-view to Novel view: Synthesizing novel views with Self-Learned Confidence”, in ECCV,
2018.
• K. Olszewski et al. “Transformable Bottleneck Networks”, 2019.
• V. Sitzmann et al. “DeepVoxels: Learning Persistent 3D Feature Embeddings”, in CVPR, 2019.
• R. Cheng et al. “Geometry-Aware Recurrent Neural Networks for Active Visual Recognition”, NeurIPS, 2018.
• H. Tung et al. “Learning Spatial Common Sense with Geometry-Aware Recurrent Networks”, in CVPR, 2019.

More Related Content

What's hot

[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph GenerationDeep Learning JP
 
StyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNAStyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNAKento Doi
 
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural imagesDeep Learning JP
 
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19Deep Learning JP
 
Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介
Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介
Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介YukiK2
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for VisionDeep Learning JP
 
【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016cvpaper. challenge
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...Deep Learning JP
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめDeep Learning JP
 
Graph Attention Network
Graph Attention NetworkGraph Attention Network
Graph Attention NetworkTakahiro Kubo
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016cvpaper. challenge
 
Overcoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだOvercoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだYusuke Uchida
 
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」Naoya Chiba
 
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...Deep Learning JP
 
Neural networks for Graph Data NeurIPS2018読み会@PFN
Neural networks for Graph Data NeurIPS2018読み会@PFNNeural networks for Graph Data NeurIPS2018読み会@PFN
Neural networks for Graph Data NeurIPS2018読み会@PFNemakryo
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from PixelsDeep Learning JP
 
【2016.01】(3/3)cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016【2016.01】(3/3)cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016cvpaper. challenge
 
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−Deep Learning JP
 
画像認識における幾何学的不変性の扱い
画像認識における幾何学的不変性の扱い画像認識における幾何学的不変性の扱い
画像認識における幾何学的不変性の扱いSeiji Hotta
 

What's hot (20)

[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation
 
StyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNAStyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNA
 
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
 
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
 
Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介
Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介
Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
 
【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
 
Graph Attention Network
Graph Attention NetworkGraph Attention Network
Graph Attention Network
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016
 
Overcoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだOvercoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだ
 
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
 
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
 
Neural networks for Graph Data NeurIPS2018読み会@PFN
Neural networks for Graph Data NeurIPS2018読み会@PFNNeural networks for Graph Data NeurIPS2018読み会@PFN
Neural networks for Graph Data NeurIPS2018読み会@PFN
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
【2016.01】(3/3)cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016【2016.01】(3/3)cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016
 
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
 
画像認識における幾何学的不変性の扱い
画像認識における幾何学的不変性の扱い画像認識における幾何学的不変性の扱い
画像認識における幾何学的不変性の扱い
 

Similar to Learning Spatial Common Sense with Geometry-Aware Recurrent Networks

[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...Deep Learning JP
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisKento Doi
 
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...Kento Doi
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields Deep Learning JP
 
第13回関西CVPRML勉強会発表資料
第13回関西CVPRML勉強会発表資料第13回関西CVPRML勉強会発表資料
第13回関西CVPRML勉強会発表資料Yutaka Yamada
 
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Masaya Kaneko
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...cvpaper. challenge
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent ImaginationDeep Learning JP
 
【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Posecvpaper. challenge
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...Deep Learning JP
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochiOhsawa Goodfellow
 
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
[DL輪読会]Shaping Belief States with Generative Environment Models for RL[DL輪読会]Shaping Belief States with Generative Environment Models for RL
[DL輪読会]Shaping Belief States with Generative Environment Models for RLDeep Learning JP
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for PredictionDeep Learning JP
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係についてDeep Learning JP
 
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...Deep Learning JP
 
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...Deep Learning JP
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)kanejaki
 

Similar to Learning Spatial Common Sense with Geometry-Aware Recurrent Networks (20)

[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
 
第13回関西CVPRML勉強会発表資料
第13回関西CVPRML勉強会発表資料第13回関西CVPRML勉強会発表資料
第13回関西CVPRML勉強会発表資料
 
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
 
RobotPaperChallenge 2019-07
RobotPaperChallenge 2019-07RobotPaperChallenge 2019-07
RobotPaperChallenge 2019-07
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
 
【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochi
 
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
[DL輪読会]Shaping Belief States with Generative Environment Models for RL[DL輪読会]Shaping Belief States with Generative Environment Models for RL
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
 
CVPR 2019 report (30 papers)
CVPR 2019 report (30 papers)CVPR 2019 report (30 papers)
CVPR 2019 report (30 papers)
 
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
 

More from Kento Doi

Few-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image TranslationFew-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image TranslationKento Doi
 
20190406_nlp/cv_勉強会
20190406_nlp/cv_勉強会20190406_nlp/cv_勉強会
20190406_nlp/cv_勉強会Kento Doi
 
Semi-convolutional Operators for Instance Segmentation
Semi-convolutional Operators for Instance SegmentationSemi-convolutional Operators for Instance Segmentation
Semi-convolutional Operators for Instance SegmentationKento Doi
 
カメラキャリブレーション
カメラキャリブレーションカメラキャリブレーション
カメラキャリブレーションKento Doi
 
CVPR2018読み会_20180701
CVPR2018読み会_20180701CVPR2018読み会_20180701
CVPR2018読み会_20180701Kento Doi
 
“Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018) 他
 “Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018)  他 “Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018)  他
“Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018) 他Kento Doi
 

More from Kento Doi (7)

Few-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image TranslationFew-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image Translation
 
20190406_nlp/cv_勉強会
20190406_nlp/cv_勉強会20190406_nlp/cv_勉強会
20190406_nlp/cv_勉強会
 
Semi-convolutional Operators for Instance Segmentation
Semi-convolutional Operators for Instance SegmentationSemi-convolutional Operators for Instance Segmentation
Semi-convolutional Operators for Instance Segmentation
 
Style-GAN
Style-GANStyle-GAN
Style-GAN
 
カメラキャリブレーション
カメラキャリブレーションカメラキャリブレーション
カメラキャリブレーション
 
CVPR2018読み会_20180701
CVPR2018読み会_20180701CVPR2018読み会_20180701
CVPR2018読み会_20180701
 
“Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018) 他
 “Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018)  他 “Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018)  他
“Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018) 他
 

Recently uploaded

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 

Recently uploaded (11)

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 

Learning Spatial Common Sense with Geometry-Aware Recurrent Networks

  • 1. Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
  • 3. Novel View Synthesis • いくつかの観測から, 別視点の画像を予測 するタスク • 脳科学の分野における⼼的回転(メンタル ローテーション)という現象と関連が深い • ⼈間は⼼に思い浮かべたイメージを回転さ せることができる • CVpaperchallengeのNovel View Synthesisの発表が⾯⽩かったので関連 論⽂を紹介します ShepardとMetzlerの実験 よくわかる認知科学(乾、吉川、川⼝ 編、2011、ミネルヴァ書房)pp.61
  • 4. 例 : Generative Query Network (GQN) • Novel view synthesisのタスクを通して, 空間の情報を集約するシー ン表現 (scene representation) を獲得 • Eslamiらは, これをconditional VAEの枠組みで実現する⼿法を提案 • ⽇本語だと⾦⼦さん, 鈴⽊さんの解説資料がわかりやすいです • https://www.slideshare.net/MasayaKaneko/neural-scene- representation-and-rendering-33d • https://www.slideshare.net/DeepLearningJP2016/dlgqn-111725780 S. Eslami et al. Neural Scene Representation and Rendering, Science, 2018.
  • 5. Novel View Synthesis • cvpaperchallengeの発表では, タスクの概要・論⽂の紹介・未解決問題な どを紹介していただいた • 未解決問題は以下の項⽬等が挙げられた • カテゴリに依存しない新規視点画像⽣成 • 複数物体のnovel view synthesis • 実データにおけるnovel view synthesis • 未知視点への汎化 • 発表を聞いて, 近年はシーン表現をどのようにモデリングするかという所 が重要そうだと思った
  • 6. Novel View Synthesis論⽂ • Scene Representation Networks: Continuous 3D-Structure-Aware Neural Scene Representations • Visual Object Networks: Image Generation with Disentangled 3D Representations • Transformable Bottleneck Networks • DeepVoxels: Learning Persistent 3D Feature Embeddings • Geometry-Aware Recurrent Neural Networks for Active Visual Recognition • Multi-view to Novel view: Synthesizing novel views with Self-Learned Confidence • Transformation-Grounded Image Generation Network for Novel 3D View Synthesis • View Synthesis by Appearance Flow • Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
  • 7. Novel View Synthesis論⽂ • Scene Representation Networks: Continuous 3D-Structure-Aware Neural Scene Representations • Visual Object Networks: Image Generation with Disentangled 3D Representations • Transformable Bottleneck Networks • DeepVoxels: Learning Persistent 3D Feature Embeddings • Geometry-Aware Recurrent Neural Networks for Active Visual Recognition • Multi-view to Novel view: Synthesizing novel views with Self-Learned Confidence • Transformation-Grounded Image Generation Network for Novel 3D View Synthesis • View Synthesis by Appearance Flow • Learning Spatial Common Sense with Geometry-Aware Recurrent Networks 今⽇発表するやつ
  • 8. Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
  • 9. 書誌情報 • CMUの研究チームによる論⽂ • last authorのFragkiadaki⽒は機械に映画を理解させるのが⽬標らしい • 本研究もそのために必要な技術という位置ずけ? • CVPR2019 oral にそれぞれ採択 • この研究は、多視点の情報を3Dの潜在表現として統合する⼿法の提案を している • geometryの知識をdeep learningのモデルに導⼊ • オクルージョンに強い • 特に記載のない場合, 図は本論⽂からの引⽤
  • 10. 概要 • 複数の2D画像から抽出した特徴を3Dの潜在表現に統合する⼿法の提案 • 提案⼿法では微分可能な幾何的な操作(投影, 再投影, ego-motion estimationなど) を deep learningに取り⼊れた • 現実世界と3D featureの位置的な関連は保存している • 提案したモデルは短い画像列から新規視点のviewを予測するタスクで学習 • さらに, 3D segmentationや3D object detectionも学習可能 • 特に検出の問題では物体の永続性を考慮した検出 (オクルージョンに強い) • 実体を持つvisual agentにspatial common senseを持たせるために必要な 技術であると結論づけた
  • 11. 背景, モチベーション • 近年の画像認識モデルは⼈間が持つ物体の永続性や空間認 識能⼒を持ち合わせていない • 動画で物体がすれ違った時に, 隠れている部分にも物体は存在し たままのはず (永続性) • このような能⼒は 画像+ラベル のデータを⽤いた教師あり学習 では獲得されない Ø 新しいモデルを提案する必要がある • 2D画像のシーケンスを3D featureに統合するGeometry- aware RNNの提案 1. 2D featureを3D空間に逆投影 (unprojection) 2. ego-motionの予測 3. GRUでシーンの3D featureを更新 • 提案⼿法は, SLAMから着想を得た部分が⼤きい
  • 12. 提案⼿法のadvantage • 新規視点予測のタスクにおける汎化性能が⾼い • geometryを考慮しない⼿法 (GQN) の性能を⼤きく上回る • ただし, ego-motionの推定をせずGTを使った場合であることに注意 • 3D segmentationや3D object detectionにも適⽤可能 • 視点の変化に伴う⼀時的なオクルージョンに頑健な検出結果を得た Ø物体の永続性 (object permanence) を理解した認識⽅法である! • 実装公開あり • https://github.com/ricsonc/grnn
  • 13. 提案⼿法 • 提案⼿法 (上図) は4つのポイントからなる 1. Unprojection 2. Egomotion estimation and stabilization 3. Recurrent map update 4. Projection and decoding Given
  • 14. Unprojection 1. CNN (2D U-net) で2D特徴マップを抽出 2. 2D特徴マップを3D空間に逆投影 3. depthマップから同じサイズの3D occupancy gridを作成 (物体がある位置は1, それ以外は0にな るテンソル) 4. 3D U-netを⽤いて3D feature !𝑉# を抽出 ① ② ④
  • 15. Egomotion estimation and stabilization • 視点は距離を変えずに, ⾓度のみ変化するとい う仮定 • 新しい視点のから作成した3Dテンソル !𝑉# を, いくつかの異なる⾓度で回転させる → !𝑉$%# • 考えられる⾓度の数だけ !𝑉$%# を作成 • その時刻の3D feature memoryと内積をとり 最もスコアの⾼い⾓度を推定したego-motion とする → !𝑉# & • 実際にはスコアで重み付け平均をとる処理を ⾏なっている • 推定した⾓度で再度変換を⾏なった後, GRUに⼊⼒
  • 16. Recurrent map update • Egomotion estimationにより向きを合わせた3D feature !𝑉# & を3D convolutional Gated Recurrent Unit (GRU) layerに⼊⼒ • 隠れ状態の3D feature memory : 𝑚#を更新していく • 𝑚#の初期値は0とした • Novel View PredictionのタスクではGRUを使わず に平均をとる処理でも同じような性能が得られた
  • 17. Projection and decoding • 得られた3D feature memory 𝑚#を⽤いてタスクを ⾏う部分のネットワーク構造 • クエリの視点 : 𝑞 を与え, 𝑚# を変換 • 各depthの値に応じた2D featureに投影しstack → 𝑝* • 𝑝*をconvLSTMで 𝑞 に対応するRGB画像へdecode • 物体のvisibilityは明⽰的には与えずNNの計算に任 せる Ø ⾏うタスクとしてはview predictionと3D MaskRCNNがある
  • 18. Projection and decoding • View predictionの場合は𝑚#を右の図の ようにdecodeして画像をレンダリング する • 3D MaskRCNNでは, 𝑚# の候補領域の 部分をROI poolingして, その部分を decodeすることにより物体マスクを⽣ 成
  • 19. 実験 • 検証したいのは以下の問い 1. GRNNsはspatial common senseを学習するか 2. geometryを考慮したネットワーク構造はspatial common senseを獲得するの に必要か 3. GRNNsの性能について • spatial common senseは, ⼈間が持つ空間認識能⼒全般を指す (広い意味) • 3D shapeは2D平⾯を膨らませることで⽣成可能 • シーンは物体から構成される • 3次元物体は交差しない • 物体は急に存在を消したりしない
  • 20. View prediction • 複数画像の⼊⼒を元に, 新しい視点の画像を予測 するタスク • 実験に⽤いたデータセット • ShapeNet : 学習データは2つの物体を観測するという設定で 準備 • Shepard-metzler : テトリスみたいなやつ • Rooms-ring-camera dataset from : 部屋の中にランダムに物 体があるようなデータセット • ⽐較対象 : GQN • 条件を揃えるため, 提案⼿法でdepth mapのGTは⽤いず, ego- motionのGTは⽤いた
  • 24. 3D object detection and segmentation • 具体的にはinstance segmentationのタスクを⾏なっている • ShapeNetでデータセットを作成 • mean Average Precision (mAP)で評価 • 4つの設定で検証 • geometry-awareでないモデル + ego-motionのGT + depthのGT • GRNN + ego-motionのGT + 推定したdepth • GRNN + ego-motionのGT + depthのGT • GRNN + 推定したego-motion + depthのGT • 両⽅推定するのはやらないの…?
  • 25. 3D object detection and segmentation • GRNN + ego-motionのGT + depthのGT の結果が最も良い (それはそう) • mAP0.75においてはGRNNはgeometry-awareでないモデルよりも良い結果 • geometry-awareな提案⼿法の優位性は⽰せた • ego-motionとdepthを両⽅推定できるとさらに良さそう
  • 26. 3D object detection and segmentation • 複数の視点の観測を統合することで, オクルージョンに頑健な検出を実現
  • 27. まとめ • spatial common senseを獲得するため, 2D画像列から3D featureを⽣成す るネットワーク構造を提案 • unprojection, ego-motion estimationなど, 微分可能なgeometricな処理を ⽤いることにより実現 • 新規視点予測のタスクにおいて, 低い再構成誤差や⾼い汎化性能を⽰した • 3D object detection & segmentationにおいては, オクルージョンに頑健 な検出ができたことを確認 • Future works • 現実のデータ・動的なシーンなどに適⽤可能なモデルの提案 • 4Dテンソルのスパース性を⽤いた計算効率の向上
  • 28. 関連研究 • Geometry-Aware Recurrent Neural Networks for Active Visual Recognition • NeurIPS 2018に採択 • 同じ研究グループの論⽂ • 同様のシステムを動的に観測位置を変化させるエージェントに適⽤ • よりinformativeな⽅向を視点を動かす⽅策を学習できた R. Cheng et al. “Geometry-Aware Recurrent Neural Networks for Active Visual Recognition”, NeurIPS, 2018. R. Cheng et al. Supplemental materials of “Geometry-Aware Recurrent Neural Networks for Active Visual Recognition”, NeurIPS, 2018.
  • 29. おまけ : Novel View Synthesis サーベイ
  • 30. View Synthesis by Appearance Flow • Novel view synthesis のタスクを, 2D画像からのフロウを推定することにより解 いた。 • フレームワーク全体は下図のようになる。これは⼀気通貫に学習することができ る。 T. Zou et al. “View Synthesis by Appearance Flow”, in ECCV, 2016.
  • 31. Transformation-Grounded Image Generation Network for Novel 3D View Synthesis • NovelViewSynthesisのタスクにおいて、新規視点でのオブジェクトのうちソー ス画像で⾒えている部分はそれをコピーして⽤い、残りの部分はGANで⽣成する ような枠組みを提案した。ネットワークはdisocclusion-aware appearance flow network (DOAFN) とcompletion networkから構成される。 • 先⾏研究のAppearance Flow Network (AFN) よりもよい結果を得た。 E. Park et al. “Transformation-Grounded Image Generation Network for Novel 3D View Synthesis”, in CVPR, 2017.
  • 32. Visual Object Networks: Image Generation with Disentangled 3D Representations • 3Dを考慮した画像⽣成を⾏う⼿法の提案 • 3D shapeの⽣成→ターゲット視点に対応した深度画像とマスクに変換→ テクスチャコードを与えて画像にCNNでレンダリング J. Zhu et al. “Visual Object Networks: Image Generation with Disentangled 3D Representations”, in NeurIPS, 2018.
  • 33. Multi-view to Novel view: Synthesizing novel views with Self-Learned Confidence • 複数視点の画像から、新規視点の画像を⽣成する⼿法の提案。フレームワークはFlowPredictorと Recurrent Pixel Generatorからなり、前者はソース画像からターゲット画像へのフロウを推定し、 後者は⼊⼒から直接画像を復元することを試みる。最後にこれらを確信度で重み付けをして統合す る。 • 3DCGのオブジェクトを⽤いて実験を⾏い当時のSOTAとなった。 S. Sun et al. “Multi-view to Novel view: Synthesizing novel views with Self-Learned Confidence”, in ECCV, 2018.
  • 34. Transformable Bottleneck Networks • 2D画像をCNNにより3Dの編集ができるようにする⼿法の提案。 • 画像から3D featureを抽出し、そこにターゲットポーズに関する変形を⼊れたのち2Dへ の投影を⾏い、画像の再構成など後段のタスクを⾏う。 • これにより剛体変換にとどまらない3Dを考慮した画像編集を⾏うことができる。 K. Olszewski et al. “Transformable Bottleneck Networks”, 2019.
  • 35. DeepVoxels: Learning Persistent 3D Feature Embeddings • 画像シーケンスを1つのボクセル表現に落とし込む⼿法の提案。 • 提案⼿法のフレームワークは以下の順で処理を⾏う。 • 画像から2D featureを抽出→2D featureを3D featureに再投影→これらを画像シーケンスについて⾏いGRUで統合 →3D featureをターゲットの視点へ投影し画像を再構成 • この再構成誤差により全体のフレームワークの学習を⾏う。 • 提案⼿法はnovel view synthesisの性能が良い。 V. Sitzmann et al. “DeepVoxels: Learning Persistent 3D Feature Embeddings”, in CVPR, 2019.
  • 36. DeepVoxels: Learning Persistent 3D Feature Embeddings V. Sitzmann et al. “DeepVoxels: Learning Persistent 3D Feature Embeddings”, in CVPR, 2019.
  • 37. 参考⽂献 • S. Eslami et al. Neural Scene Representation and Rendering, Science, 2018. • T. Zou et al. “View Synthesis by Appearance Flow”, in ECCV, 2016. • E. Park et al. “Transformation-Grounded Image Generation Network for Novel 3D View Synthesis”, in CVPR, 2017. • J. Zhu et al. “Visual Object Networks: Image Generation with Disentangled 3D Representations”, in NeurIPS, 2018. • S. Sun et al. “Multi-view to Novel view: Synthesizing novel views with Self-Learned Confidence”, in ECCV, 2018. • K. Olszewski et al. “Transformable Bottleneck Networks”, 2019. • V. Sitzmann et al. “DeepVoxels: Learning Persistent 3D Feature Embeddings”, in CVPR, 2019. • R. Cheng et al. “Geometry-Aware Recurrent Neural Networks for Active Visual Recognition”, NeurIPS, 2018. • H. Tung et al. “Learning Spatial Common Sense with Geometry-Aware Recurrent Networks”, in CVPR, 2019.